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采 言 


本 书目 的 在 于 帮助 读者 理解 Hadoop， 并 用 它 解决 大 数据 问题 。 能 使 用 
Hadoop 这 样 的 数据 处 理 技术 进行 工作 是 令 人 激动 的 。 对 大 规模 数据 集 进 
行 复杂 分 析 的 能 力 ， 曾 一 度 被 大 公司 和 政府 机 构 所 垄断 ， 而 现在 通过 免 
费 的 OSS 《open source software， 开 源 软件 ) 即 可 获得 这 种 能 力 。 


该 领域 看 上 去 有 些 复杂 ， 并 且 变 化 节 礁 很 快 ， 所 以 理解 这 方面 的 基本 知 
识 让 人 望 而 生 有 长 。 这 惑 是 本 书 诞生 的 意义 所 在 ， 它 帮助 读者 了 解 什么 是 
0 和 尖 交 二 人 上 的 ， 以 及 如 何 使 用 Hadoop 从 数据 中 提取 有 
介 言 息 。 


除了 解释 Hadoop 的 核心 机 制 ， 本 书 也 会 用 几 章 内 容 来 学 习 其 他 相关 技 
术 ， 这 些 技术 要 么 用 到 了 Hadoop， 要 么 需要 与 Hadoop 配 套 使 用 。 我 们 
的 目标 是 ， 让 读者 不 仅 理解 Hadoop 是 什么 ， 还 要 理解 如 何在 更 宽泛 的 技 
术 设 施 中 使 用 Hadoop。 


本 书 中 提 到 的 另 一 种 技术 是 云 计 算 的 应 用 ， 尤 其 是 AWS (Amazon Web 
Services， 亚 马 逊 网 络 服务 ) 产品 。 本 书 中 ， 我 们 将 展示 如 何 使 用 这 些 
服务 来 承载 Hadoop 工 作 猴 载 。 这 就 意味 着 ， 读 者 无 需 购 买 任何 物理 便 
件 , 就 能 处 理 大 规模 数据 。 











本 书 内 容 


本 书包 括 3 个 主要 部 分 : 第 1~5 章 讲述 了 Hadoop 的 核心 机 制 及 Hadoop 的 
工作 模式 ， 第 6~7 章 涵盖 了 Hadoop 更 多 可 操作 的 内 容 ; 第 8~11 章 介绍 了 
Hadoop 与 其 他 产品 和 技术 的 组 合 使 用 。 每 章 内 容 具 体 如 下 所 。 


第 1 章 “ 绪 论 >”。 简要 介绍 了 产生 Hadoop 和 云 计算 的 背景 。 如 今 看 来 ， 这 
些 技术 是 如 此 重要 。 


第 2 章 “ 安 装 并 运行 Hadoop”。 指导 读者 完成 本 地 Hadoop 集 群 的 安装 ， 
并 运行 一 些 示例 作业 。 为 了 进行 对 比 ， 在 托管 于 亚马逊 服务 的 Hadoop 上 
执行 同样 的 任务 。 


第 3 章 “ 理 解 MapReduce”。 深入 研究 Hadoop 运 行 原理 ， 揭 示 了 
MapReduce 作 业 的 执行 方式 ， 并 展示 了 如 何 使 用 Java API 编 写 
MapReduce 应 用 程序 。 


第 4 章 “ 开 发 MapReduce 程 序 ?。 通过 对 一 个 中 等 规模 数据 集 案例 的 学 习 
研究 ， 演 示 如 何 着 手 处 理 和 分 析 新 数据 源 。 


第 5 章 “ 高 级 MapReduce 技 术 ”。 介绍 一 些 更 复杂 的 应 用 MapRedece 和 解决 
问题 的 方法 ，Hadoop 似 乎 并 不 直接 适用 于 这 些 问题 。 


第 6 章 “ 故 障 处 理 ”。 详细 检查 Hadoop 备 受 赞誉 的 高 可 用 性 和 容错 能 力 ， 
通过 强制 结束 进程 和 故意 使 用 错误 数据 等 方式 故意 制造 破坏 ， 以 检验 
Hadoop 在 上 述 情 况 下 的 表现 。 


第 7 章 “ 系 统 运行 与 维护 ”>。 从 更 具 操 作 性 的 角度 讲解 Hadoop， 这 对 于 
Hadoop 集 群 的 管理 人 员 非 常 有 用 。 本 章 在 介绍 一 些 最 佳 做 法 的 同时 ， 也 
描述 了 如 何 预防 最 糟糕 的 操作 性 灾难 ， 因 此 系统 管理 员 可 以 高 枕 无 忧 
Ts 








第 8 章 “Hive: 数据 的 关系 视图 ”。 介绍 Apache Hive， 它 允许 使 用 类 似 
SQL 的 语法 对 Hadoop 数 据 进行 查询 。 


第 9 章 “ 与 天 系数 据 库 协 同 工 作 ”。 探讨 Hadoop 如 何 与 现 有 数据 库 融 合 ， 
特别 是 如 何 将 数据 从 一 个 数据 库 移 到 另 一 个 数据 库 。 


第 10 间 “使 用 Flume 收 集 数据 ”。 介绍 如 何 使 用 Apache Flume 从 多 个 数据 
源 收集 数据 ， 并 传送 至 Hadoop 这 样 的 目的 地 。 


第 11 章 “展望 未 来 >。 以 更 广泛 的 Hadoop 生 态 系 统 概述 结束 全 书 ， 重 点 
突出 其 他 产品 和 技术 的 潜在 价值 。 此 外 ， 还 提供 了 一 些 如 何 参 与 Hadoop 
社区 并 获得 帮助 的 方法 。 





准备 工作 


本 书 每 草 内 容 分 别 介绍 该 章 用 到 的 Hadoop 相 关 软 件 包 。 但 是 ， 无 论 哪 音 
内 容 都 要 用 到 运行 Hadoop 集 群 的 硬件 设施 。 


在 最 简单 的 情况 下 ， 一 台 基 于 Linux 的 主机 可 作为 运行 几乎 全 书 所 有 示 
例 的 平台 。 任 何 可 运行 Linux 命 令 行 的 先进 操作 系统 部 可 满足 需求 ， 文 
中 假设 读者 使 用 的 是 Ubuntu 的 最 新 发 布 版 。 


后 面 儿 章 中 的 一 些 例子 确实 需要 在 多 台 机 器 上 运行 ， 所 以 读者 需要 拥有 
至 少 4 台 主机 的 访问 权限 。 虚 拟 机 也 是 可 以 的 。 虽然 对 于 产品 来 讲 ， 它 
们 并 非 理想 选择 ， 但 完全 能 够 满足 学 习 和 研究 的 需要 。 


本 书 中 ， 我 们 还 将 研究 AWS， 读 者 可 以 在 EC2 实 例 上 运行 所 有 示例 。 本 
书 中 ， 我 们 将 更 多 地 着 眼 于 AWS 针 对 Hadoop 的 具体 用 途 。 任何 人 都 可 
以 使 用 AWS 服 务 ， 但 需要 一 张 信 用 卡 进 行 注册 ! 








目标 读者 


我 们 认为 ， 本 书 读者 想 要 学 习 更 多 关于 Hadoop 的 实践 知识 。 本 书 的 主要 
受众 十， 有 软件 开发 经 验 却 没有 接触 过 Hadoop 或 闫 似 入 数据 技术 的 人 


员 。 


对 于 那些 想 知道 如 何 编 写 MapReduce 应 用 的 开发 者 ， 假 设 他 们 能 轻松 地 
编写 Java 程 序 并 熟悉 Unix 命 令 行 接口 。 本 书 还 包含 几 个 Ruby 程 序 示例 ， 
但 这 些 通常 只 是 说 明 语言 的 独立 性 ， 并 不 要 求 读 者 成 为 一 位 Ruby 专 家 。 


对 于 架构 师 和 系统 管理 员 而 言 ， 本 书 也 具有 重大 价值 。 它 解释 了 Hadoop 
的 工作 原理 ，Hadoop 在 更 广阔 的 系统 架构 中 所 处 的 位 置 ， 以 及 如 何 管理 
Hadoop 和 集群 。 这 类 受众 对 一 些 复杂 技术 可 能 缺乏 直接 兴趣 ， 如 第 4 章 和 
第 5 章 。 











约定 
本 书 中 ， 有 几 个 经 常 出 现 的 标题 。 


为 了 明确 说 明 如 何 完成 一 个 程序 或 任务 ， 本 书 使 用 下 面 的 格式 详细 描述 
操作 步 又。 


实践 环节 : 标题 


各 一 些 额外 的 解释 帮助 读者 理解 这 些 指令 ， 因 此 紧 随 其 后 的 是 
下 徊 多 原理 分 析 ， 





这 部 分 内 容 对 任务 运行 原理 或 刚 完 成 的 指令 进行 解释 说 明 。 
本 书 还 包含 一 些 其 他 的 学 习 辅 助 标记 ， 包 括 : 
随 符 测 验 : 标题 


mo 简短 的 多 选 题 ， 目 的 在 于 帮助 读者 测试 对 相关 内 容 的 理解 是 
个 正大 。 


一 展 身 手 : 标题 


这 部 分 内 容 设置 一 些 实际 问题 ， 并 为 读者 提供 一 些 验证 所 学 内 容 的 方 
0 


本 书 使 用 多 种 文字 风格 来 区 分 不 同 种 类 的 信息 。 下 面 是 一 些 例子 还 有 对 
其 意义 的 解释 。 


代码 块 设 置 如 下 : 你 也 许 注意 到 ， 我 们 使 用 Unix 命 令 rm 而 不 是 DOSdel 


命令 移 除 Drush 目录 。 


# * Fine Tuning 


# 

key_buffer = 16M 
key_buffer size = 32M 
max_allowed packet = 16M 
thread stack = 512K 
thread cache size = 8 
max_connections = 366 





如 果 代 码 块 的 特定 部 分 需要 特别 关注 ， 相 应 行 或 内 容 会 加 粗 显 示 。 
# * Fine Tuning 


# 

key_buffer = 16M 
key_buffer size = 32M 
max_allowed packet = 16M 
thread stack = 512K 
thread cache size = 8 
max_connections = 366 





命令 行 的 输入 或 输出 会 以 如 下 形式 显示 。 


cd /ProgramData/Propeople 
rm -r Drush 
git clone --branch master http://git.drupal.org/project/drush.git 





新 词 或 者 重要 的 词 会 以 黑体 字 显 示 。 以 荣 单 或 对 话 框 为 例 ， 读 者 在 屏 
幕 上 看 到 的 内 容 如 下 所 示 “ 在 Select Destination Location (选择 目的 地 
址 ) 页面 ， 点击 Next( 下 一 步 ) 按钮 接受 默认 输出 地 址 ”。 


提示 : ”警告 或 重要 提示 会 出 现在 这 样 的 方 框 里 。 


技巧 : 小 罕 门 和 技巧 会 以 这 样 的 形式 出 现 。 


读者 反馈 


我 们 非常 欢迎 来 自 读 者 的 反馈 。 将 你 对 本 书 的 看 法 告诉 我 们 ， 哪 些 内 容 
是 你 喜欢 的 或 哪些 是 你 不 喜欢 的 。 读 者 反馈 可 以 帮助 我 们 不 断 提高 书稿 
质量 ， 这 是 非常 重要 的 。 


你 只 需 辐 我 们 发 送 一 封 电 子 邮 件 ， 在 邮件 主题 中 提 及 书 名 即 可 反馈 你 的 
意见 。 我 们 的 邮箱 是 : feedback@packtpub.com。 


如 有 果 你 擅长 某 个 领域 并 对 写作 或 者 创作 有 兴趣 ， 请 参阅 
www.packtpub.com/authors 上 的 作者 指南 。 


























客户 文 持 


既然 你 购买 了 Packt 的 图 书 ， 我 们 将 为 你 提供 多 种 服务 ， 使 你 本 次 购买 
物 超 所 值 。 


下 载 示 例 代 码 


你 可 以 通过 http://www.packtpub.com 网 站 的 账号 下 载 所 购买 Packt 书 籍 的 
示例 代码 文件 。 或 者 登录 网 站 http:/www.packtpub.com/support 进行 注 
册 ， 随 后 我 们 将 通过 电子 邮件 同 你 发 送 本 书 配套 的 示例 代码 文件 。 


勘误 表 


虽然 作者 尽 最 大 努力 保证 本 书 内 容 的 准确 性 ， 然 而 错误 在 所 难免 。 如 果 
你 在 Packt 出 版 的 书 中 发 现 了 文字 错误 或 是 代码 错误 ， 圳 心 希 望 你 能 及 
时 问 我 们 反馈 ， 并 预 致谢 意 。 你 的 意见 可 以 帮助 我 们 改进 图 书 的 后 续 版 
本 ， 并 能 帮助 其 他 读者 避免 错误 。 请 通过 以 下 步骤 提交 你 发 现 的 错误 之 
处 : 访问 网 站 http://www.packtpub.com/submit-errata ， 选 择 相应 图 书 ， 
点 击 提交 勘误 表 ， 登 记 你 的 勘误 表 详 情 。 勘 误 表 通过 验证 之 后 将 上 传 到 
Packt 网 站 ， 或 添加 到 已 有 的 勘误 列表 中 。 








天 于 盗版 


互联 网 上 的 盗版 问题 由 来 已 人 ， 而 且 各 种 形式 的 媒介 都 存在 这 个 问题 。 
Packt 出 版 社 非常 重视 版 权 保护 问题 。 如 果 你 在 互联 网 上 看 到 了 Packt 图 
书 的 任何 非法 拷贝 ,无论 它 以 何 种 形式 存在 ， 请 立即 向 我 们 提供 其 位 置 
或 网 站 名 称 以 便 及 时 补救 。 


。 邮箱 copyright@packtpub.com 与 我 们 联系 ， 并 附 上 涉嫌 盗版 材料 
和 链接。 


ee 了 Packt 图 书 作者 的 权益 ， 也 让 我 们 能 持续 提供 高 品质 图 


问题 


如 果 你 有 关于 本 书 任何 方面 的 问题 ， 可 以 通过 questions@packtpub.com 
联系 我 们 。 我 们 将 会 尽力 解决 。 


第 1 章 绪论 


本 书 介绍 一 种 大 规模 数据 处 理 的 开源 框架 Hadoop。 在 深入 探讨 它 
的 技术 细节 和 应 用 之 前 ， 很 有 必要 花 点 时 间 来 了 解 Hadoop 及 其 取得 巨 
大 成 功 的 历史 背景 。 

Hadoop 并 不 是 凭空 想象 出 来 的 ， 它 的 出 现 源 于 人 们 创建 和 使 用 的 数据 
量 的 爆炸 性 增长 。 在 此 背景 下 ， 不 仪 是 庞大 的 跨国 公司 面临 着 海量 数 
据 处 理 的 困难 ， 小 型 创业 公司 同样 如 此 。 与 此 同时 ， 其 他 历史 变 音 改 
变 了 软件 和 系统 的 部 署 方式 ， 除 了 传统 的 基础 设施 ， 人 们 开始 使 用 甚 
至 偏好 于 云 资源 。 


本 章 将 要 探讨 Hadoop 出 现 的 背景 ， 并 详细 讲解 Hadoop 想 要 解决 的 问题 
和 决定 其 最 终 设计 的 内 在 驱动 因素 。 


本 章 包 括 以 下 内 容 : 
。 概述 大 数据 革命 ; 
。 讲解 Hadoop 是 什么 以 及 如 何 从 数据 中 获取 有 价值 信息 ; 


。 探秘 云 计算 并 了 解 AWS (Amazon Web Services， 亚 马 逊 网 络 服 
务 ) 的 功能 ; 


。 了 解 大 数据 处 理 技术 与 云 计 算 相 结合 带 来 的 巨大 威力 ; 
。 概述 本 书 其 余 革 市 内 容 。 
现在 我 们 开始 吧 ! 

















1.1 大 数据 处 理 


审视 现 有 技术 ， 不 难 有 发 现 ， 所 有 技术 都 以 数据 为 核心 。 作 为 用 户 ， 我 们 
对 军 媒 体 的 欲望 与 日 俱 增 ， 比 如 观看 的 电影 和 创建 并 上 传 到 网 络 的 照片 
和 视频 。 我 们 也 篆 币 在 日 营 生 活 中 ， 不 经 意 地 在 网 上 留 下 一 串 数 据 。 


不 仅 是 数据 总 量 在 迅速 增加 ， 同 时 数据 生成 速率 也 在 不 断 增 加 。 从 电子 
邮件 到 Facebook 留 言 ， 从 网 上 购物 记录 到 网 站 链接 ， 到 处 都 是 不 断 增长 
的 大 数据 集 。 在 此 背景 下 ， 最 大 的 挑战 在 于 ， 如 何 从 这 些 数 据 中 提取 最 
有 价值 的 信息 。 有 时 是 提取 特定 的 数据 元 素 ， 有 时 是 分 析 数 据 间 的 关系 
或 是 判断 一 种 趋势 。 


微妙 的 变化 悄然 发 生 ， 数 据 的 使 用 方式 变 得 越 来 越 有 意义 。 一 段 时 间 以 
来 ， 大 型 公司 已 经 意识 到 了 数据 的 价值 ， 并 用 它 来 提升 服务 质量 。 例 
如 ，Google 在 用 户 正 在 访问 的 网 页 上 显示 内 容 相 关 的 广告 ，Amazon 或 
Netflix 向 用 户 推 荐 合乎 其 口味 和 兴趣 的 新 产品 或 新 电影 。 


1.1.1 数据 的 价值 


如 果 不 会 带 来 有 价值 的 回报 或 者 明显 的 竞争 优势 ， 这 些 大 型 企业 是 不 会 
投资 发 展 大 数据 处 理 技术 的 。 应 当 从 以 下 几 个 方面 来 认识 大 数据 。 


。 只 有 在 数据 集 足够 大 的 时 候 ， 某 些 问题 才 变 得 有 意义 。 例 如 ， 在 其 
他 影响 因素 缺失 的 情况 下 ， 基 于 一 个 第 三 人 的 喜好 推荐 电影 是 不 可 
能 非常 精准 的 。 然 而 ， 当 参考 样本 增加 到 100 时 ， 推 荐 成 功 的 几率 
路 有 二 开 。 而 使 用 1000 万 人 的 观看 记录 ， 可 以 大 旺 提 天 缆 得 推荐 

! 的 可 能 性 。 


与 之 前 的 解决 方案 相 比 ， 大 数据 处 理工 具 通 常 能 够 以 较 低 的 成 本 处 
理 更 大 规模 的 数据 。 因 此 ， 能 够 在 可 接受 的 成 本 范 轩 内 执行 以 往 花 
费 极 高 的 数据 处 理 任务 。 


大 规模 数据 处 理 的 成 本 不 仅 体现 在 财务 费用 上 ， 等 待 时 间 也 是 一 个 
重要 因素 。 如 果 一 个 系统 能 够 处 理 所 有 到 达 数 据 ， 但 是 其 平均 处 理 
时 间 以 周 为 计量 单位 ， 那 么 该 系统 也 是 不 可 用 的 。 大 数据 处 理工 具 
通过 将 增加 的 数据 量 分 配 到 附加 的 硬件 ， 来 保证 即使 在 数据 量 增加 












































的 情况 下 ， 处 理 时 间 也 不 会 失控 。 
。 为 了 满足 数据 库 中 最 大 数据 的 需要 ， 可 能 需要 重新 审视 之 前 关于 数 
据 库 形式 或 者 其 中 数据 结构 的 假设 。 


。 综合 上 述 几 点 内 容 ， 足 够 大 的 数据 集 以 及 灵活 的 工具 可 以 使 之 前 无 
法 想象 的 问题 得 到 解答 。 














1.1.2 ”受众 较 少 


前 面 讨论 的 从 大 数据 中 提取 有 价值 信息 用 于 改进 服务 质量 的 例子 ， 往 往 
属于 大 型 搜索 引擎 和 在 线 公司 的 创新 模式 。 这 是 因为 在 早期 发 展 过 程 
和 
制 。 


同样 ， 比 大 数据 处 理 技术 应 用 更 为 广泛 的 数据 挖掘 方法 已 经 存在 了 很 长 
和 

















这 种 情况 的 出 现 可 能 令 人 感到 遗憾 。 但 在 过 去 ， 对 于 大 多 数 小 公司 来 讲 
却 无 关 紧 要 ， 因 为 它们 的 数据 量 很 少 ， 并 不 需要 投入 大 量 的 资金 来 处 理 
这 些 数 据 。 

然而 ， 现 如 今 数 据 量 的 增加 不 再 局 限于 大 型 组 织 ， 许 多 中 小 型 公司 甚至 


一 些 个 人 收集 到 的 数据 也 越 来 越 多 。 他 们 也 意识 到 这 些 数 据 中 可 能 包含 
独 正 竺 发掘 的 价值 。 


在 理解 如 何 实现 这 一 目标 之 前 ， 很 有 必要 了 解 真 定 Hadoop 系 统 基 础 的 背 
景 情况 。 
1. 经 典 的 数据 处 理 系统 


造成 大 数据 挖掘 系统 黎 有 且 昂 贵 的 根本 原因 是 ， 将 现 有 小 型 计算 系统 打 
展 为 大 数据 处 理 系统 是 非常 困难 的 。 正 如 我 们 所 见 ， 一 直 以 来 ， 数 据 处 
理 系统 的 处 理 能 力 一 直 受 限于 单 台 计 算 机 的 极限 运算 能 力 。 


随 看 数据 规模 的 增长 ， 出 现 了 两 种 常用 的 扩展 系统 的 方法 ， 通 常 称 之 
为 “ 铝 上 扩展 ”和 “向 外 扩展 ”。 


。 癌 上 扩展 


在 大 多 数 企业 ， 数 据 处 理 任务 通常 由 相当 郧 贵 的 大 型 机 来 执行 。 随 着 数 
所 规模 的 增长 ， 向 上 扩展 的 方法 就 是 将 数据 处 理 任务 迁移 到 更 大 的 服务 
需 或 者 存储 窃 阵 。 即 便 以 今天 的 视角 来 看 ， 这 种 架构 确实 有 效 ， 但 其 硬 
人 
涉及 。 


简单 的 同上 扩展 系统 的 优点 是 ， 系 统 的 架构 并 不 会 随 着 数据 量 的 增 大 而 
发 生 显著 变化 。 尽 管 采 用 了 更 大 型 的 部 件 ， 但 部 件 之 间 的 基本 关系 〈 例 
如 数据 服务 器 和 存储 所 阵 ) 却 依 然 保 持 一 致 。 对 于 像 商 业 数 据 库 引 擎 这 
样 的 应 用 而 言 ， 可 以 通过 软件 来 处 理 使 用 硬件 带 来 的 复杂 性 。 但 是 从 理 
论 上 来 讲 ， 数 据 处 理 能 力 是 通过 把 相同 的 软件 迁移 到 规模 越 来 越 大 的 服 
务 右 上 来 实现 的 。 需 要 注意 的 是 ， 把 软件 迁移 到 越 来 越 多 的 处 理 器 上 也 
存在 一 定 困 难 。 同 时 ， 单 台 计 算 机 的 处 理 能 力也 受到 现实 条 件 的 约束 。 
人 
吴 。 


单一 架构 的 数据 处 理 器 的 规模 不 可 能 无 限 扩 大 。 从 概念 上 来 讲 ， 通 过 问 
上 扩展 系统 的 方式 设计 一 个 处 理 能 力 为 IITB、100TB 到 1PB 数 据 的 系 

统 ， 可 能 仅 需 使 用 更 大 规模 的 相同 部 件 。 但 随 着 数据 规模 的 增长 ， 这 些 
定制 硬件 之 间 连 接 的 复杂 性 可 能 与 之 前 的 廉价 部 件 有 所 不 同 。 


。 早期 加 外 扩展 的 方法 


问 外 扩展 的 方法 并 不 通过 升级 系统 的 硬件 来 获得 更 强 的 处 理 能 力 ， 而 是 
将 数据 处 理 任务 分 发 给 越 来 越 多 的 机 器 。 如 打数 据 集 的 规模 翻 倍 了 ， 那 
就 使 用 两 台 机 器 来 处 理 ， 而 不 是 一 合 有 着 两 倍 处 理 能 力 的 机 器 。 如 宁 数 
所 规模 继续 翻 倍 ， 那 就 使 用 四 合 机 喜来 处 理 。 


与 回 上 扩展 的 方法 相 比 ， 向 外 扩展 系统 的 明显 优势 在 于 采购 成 本 大 大 低 
于 前 者 。 大 型 机 的 硬件 成 本 随 着 处 理 能 力 的 增长 而 激增 一 一 假设 一 台 主 
机 的 采购 成 本 为 5000 美 元 ， 那 么 一 台 有 具有 10 倍 处 理 能 力 的 机 串 可 能 要 人 花 
掉 百 倍 的 钱 。 回 外 扩展 系统 方法 的 不 足 之 处 在 于 ， 需 要 确定 一 种 策略 来 
把 数据 处 理 任 务 分 发 给 不 同 的 机 器 ， 而 经 验证 明 具 有 上 述 用 途 的 工具 异 


六 


首 复 林 。 


因此 ， 部 署 一 套 回 外 扩展 的 解决 方案 是 一 项 浩大 的 工程 。 系 统 研 发 人 员 












































不 仅 要 设计 数据 切 分 和 重组 机 制 ， 还 要 设计 在 处 理 吉 集群 间 调 度 工 作 和 
处 理 个 别 机 器 故障 的 逻辑 。 


2. 制约 因素 





除 大 型 企业 、 政 府 和 学 术 研 究 机 构 外 ， 上 述 向 上 扩展 和 向 外 扩展 的 方法 
并 没有 得 到 广泛 应 用 。 通 常 ， 系 统 的 采购 成 本 很 高 ， 研 发 和 维护 这 些 系 
统 的 成 本 同样 很 高 。 这 些 因素 导致 这 些 系统 很 难 被 小 型 企业 所 接纳 。 此 
外 ， 这 些 方法 本 里 的 缺陷 也 随 着 时 间 推 移 逐 步 显 现 。 


随 看 向 外 扩展 的 系统 规模 变 大 或 者 外 上 扩展 的 系统 所 需 CPU 数 量 增 
多 ， 由 系统 并 发 禹 来 的 系统 复杂 性 问题 日 益 明显 。 如 何 有 效 利用 多 
台 主 机 或 多 个 CPU 是 一 个 大 难题 。 要 想 在 整个 数据 处 理 任务 执行 期 
间 保 持 系 统 高 效 运作 ， 需 要 付出 极 大 的 努力 。 


通 种 硬件 性 能 《用 摩尔 定律 描述 ) 的 提升 在 不 同 硬件 上 的 表现 大 相 
径 隆 。CPU 性 能 的 提升 速度 远 远 超 过 了 网 络 或 硬盘 性 能 提升 的 速 

度 。CPU 周 期 一 度 是 系统 中 最 有 价值 的 资产， 现在 却 并 非 如 此 。 现 
代 CPU 的 运行 速度 是 20 年 前 的 数 百 万 倍 ， 然 而 内 存 和 硬盘 的 速度 却 
只 提升 了 上 千 倍 其 全 上 百倍 。 用 这 种 高 性 能 CPU 很 容易 搭建 一 个 现 
代 系 统 ， 但 在 该 系统 中 ， 存 储 系 统 提供 数据 的 速率 却 无 法 满足 CPU 
的 工作 需要 。 


1.1.3 ”一 种 不 同 的 方法 


上 述 场景 中 ， 有 一 些 技术 成 功 地 解决 了 令 人 头疼 的 将 数据 处 理 系统 扩展 
为 大 数据 处 理 系统 的 问题 。 























1. 条 条 大 路 通 罗马 : 问 外 扩展 





如 上 所 述 ， 采 用 加 上 扩展 的 方法 并 不 是 一 种 开放 陈 的 策略 。 它 受 限 于 从 
主流 的 硬件 供应 商 购买 的 单个 服务 器 的 规模 ， 甚 至 专业 的 供应 商都 无 法 
提供 足够 大 的 服务 器 。 在 茶 些 情况 下 ， 工 作 负 载 的 增 量 会 超出 单 合 整体 
向 上 扩展 的 服务 器 的 能 力 ， 这 时 该 怎么 办 呢 ? 很 遗憾 ， 最 好 的 办 法 就 是 
使 用 两 台大 型 服务 器 ， 而 不 是 一 全 服务 器 。 以 此 类 推 ， 就 会 有 三 合 、 四 
人 台 ， 甚 至 更 多 服务 占 。 或 者 换言之 ， 在 极端 情况 下 ， 向 上 扩展 染 构 的 必 
然 趋势 是 加 入 向 外 扩展 的 策略 ， 将 二 者 结合 起 来 。 尽 管 这 样 同时 吸收 了 








两 种 方法 的 部 分 优点 ， 但 也 综合 了 两 种 方法 的 缺陷 和 成 本 : 单一 的 方法 
a 
一 不 可 。 


向 上 扩展 架构 的 终极 趋势 和 成 本 曲线 导致 其 在 大 数据 处 理 领 域 鲜 有 应 
用 ， 而 疝 外 扩展 的 架构 却 成 了 事实 上 的 标准 。 


技巧 : 假如 竺 解决 的 问题 涉及 的 数据 具有 很 强 的 内 部 交叉 引用 ， 并 
需 保 证 事务 完整 性 ， 基 于 大 型 计算 机 的 同上 扩展 的 关系 数据 库 仍 不 失 
为 











2. 不 共享 任何 内 容 


父母 会 化 相 当 长 的 时 间 去 教 孩 子 ， 这 是 一 个 很 好 的 共享 案例 。 但 是 ， 不 
0 


从 概念 上 看 ， 向 外 扩展 架构 刻意 凸显 了 主机 的 独立 性 ， 每 台 主 机 处 理 整 
个 数据 集 的 一 个 子 集 ， 并 输出 最 终结 果 的 一 部 分 。 现 实情 况 通常 并 非 如 
此 简单 。 相 反 ， 主 机 之 间 可 能 需要 通信 ， 多 人 台 主 机 可 能 会 用 到 相同 的 一 
些 数 据 片 段 。 主 机 间 相 互 依赖 给 系统 剖 来 了 两 个 负面 影响 : 瓶颈 问题 和 
增加 了 故障 风险 。 


如 果 系 统 的 每 次 运算 都 要 调用 同一 块 数据 或 同一 个 服务 器 ， 那 么 多 个 相 
互 苋 争 的 客户 端 访 问 同一 数据 或 同一 主机 很 可 能 造成 系统 延迟 。 例 如 ， 
由 25 台 主机 组 成 的 系统 中 ， 所 有 的 主机 都 必须 访问 其 中 一 台 主 机 ， 整 个 
系统 的 性 能 就 会 受 限于 这 台 关 键 主机 的 处 理 能 


更 糟 糙 的 是 ， 如 果 这 个 “热点 ”服务 器 或 存储 系统 的 关键 数据 失效 ， 那 么 
整个 工作 将 会 瞬间 瘫痪 。 早 期 的 集群 解决 方案 往往 证 明了 这 一 风险 
即便 使 用 多 人 台 服 务 器 共同 处 理工 作 任 务 ， 却 往往 使 用 同一 个 共 胖 存储 系 
统 保存 所 有 数据 。 


与 共享 资源 不 同 ， 一 个 系统 的 各 个 组 成 部 分 应 当 尽 可 能 保持 独立 。 这 种 
情况 下 ， 每 个 部 件 都 能 正常 工作 ， 而 不 用 理会 其 余部 件 是 人 否 忙于 处 理 复 
杂 的 工作 ， 或 是 否 已 处 于 故障 状态 。 





























3. 故障 预期 





上 述 原 则 提倡 尽 可 能 保持 独立 ， 然 而 潜在 的 晾 端 是 要 消耗 更 多 的 人 硬件 。 
A 
现 的 。 


提示 : 读者 可 能 经 第 听 到 “五 个 九 ”这 样 的 词 ， 它 指 的 是 99.999% 的 正 
常 运行 时 间或 者 可 用 性 。 虽 然 从 绝对 意义 上 来 讲 ， 这 是 最 好 的 可 用 

性 ， 但 也 要 认识 到 ， 由 许多 这 种 设备 组 成 的 系统 的 整体 可 靠 性 可 以 相 
差 很 大 ， 这 取决 于 该 系统 能 否 容 妨 单个 组 件 故 障 。 


假设 一 套 系统 需要 5 人 台 可 靠 性 达 99% 的 服务 器 才能 运行 。 那 么 ， 该 系 
统 的 可 用 性 为 0.99*0.99*0.99*0.99*0.99， 也 就 是 可 用 性 为 959%。 但 是 
如 果 单 个 服务 器 的 可 靠 性 仅 为 95% 的 话 ， 那 么 整个 系统 的 可 靠 性 就 下 
降 到 只 有 76%。 


相反 ， 如 果 在 任意 时 刻 ， 只 要 保证 5 台 服 务 器 中 的 1 台 正 常 工作 ， 系 统 即 
运行 正 第 。 那 么 ， 系 统 的 可 用 性 就 高 达 99.999%。 系 统 的 正常 运行 时 间 
Bs 
系统 可 用 性 。 


技巧 : 如果“ 系统 可 用 性 为 99%” 这 样 的 表述 有 点 抽 象 的 话 ， 可 以 从 系 
统 在 给 定时 间 段 内 的 故障 时 间 来 考虑 这 一 问题 。 举 个 例子 来 说 明 ， 
99% 的 可 用 性 相当 于 一 年 中 有 3.5 天 的 故障 时 间 ， 或 者 是 一 个 月 中 有 7 
个 小 时 的 故障 时 间 。999% 的 可 用 性 还 是 听 上 去 那么 美好 吗 ? 


接受 故障 的 做 法 ， 往 往 是 新 手 在 充分 理解 大 数据 处 理 系 统 过 程 中 感到 最 
为 困惑 的 一 个 方面 。 这 也 是 它 与 向 上 扩展 系统 架构 的 方法 区 别 最 大 的 地 
方 。 大 型 的 向 上 扩展 的 服务 器 成 本 昂贵 的 一 个 主要 原因 是 ， 生 产 商 要 投 
入 巨大 努力 来 减少 部 件 故 障 给 系统 带 来 的 影响 。 即 便 是 低 端 服务 器 也 会 
有 元 余 电源 ， 但 在 大 型 计算 机 机 箱 里 ， 多 个 CPU 安 闭 在 CPU 卡 上 ， 这 些 
CPU 卡 又 通过 多 个 背 板 连接 至 内 存 插 横 和 存储 系统 。 大 型 计算 机 厂商 经 
常 通过 各 种 形式 的 极端 方法 来 展示 其 产品 的 健壮 性 ， 如 将 正在 运行 的 系 
统 部 件 直接 拔 出 ， 甚 至 用 枪 向 其 射击 。 如 果 系 统 构建 时 ， 设 计 者 考虑 到 
了 可 能 出 现 的 故障 并 保证 其 发 生 的 概率 在 可 接受 范围 内 ， 而 不 是 将 每 次 
故障 作为 必须 消除 的 危机 ， 将 会 出 现 完全 不 同 的 体系 结构 。 




















4. 软件 智能 化 ， 硬 件 傻瓜 化 

如 琳 我 们 希望 尽 可 能 地 灵活 使 用 人 硬件 集群 ， 为 许多 并 行 工作 流程 提供 托 
管 服务， 解决 方案 就 是 为 软件 注入 智能 并 从 硬件 抽 离 智能 。 

在 这 种 模式 下 ， 硬 件 被 视 为 资源 的 集合 ， 由 软件 层 来 负责 问 硬件 分 配 特 
定 的 工作 任务 负载 。 这 束 使 得 硬件 成 为 通用 的 ， 并 且 价 格 较为 低廉 ， 更 


易于 获得 。 同 时 ， 有 效 利 用 硬件 的 功能 转移 到 了 软件 ， 而 关于 如 何 有 效 
执行 任务 的 知识 恰恰 贮存 在 软件 中 。 


5. 移动 处 理 程序 ， 而 非 移动 数据 











假设 需要 对 一 个 很 大 的 数据 集 ( 比 如 1000 TB， 也 就 是 1PB) 中 的 每 块 
数据 执行 4 项 操作 。 下 面 看 一 下 解决 上 述 问 题 的 系统 的 不 同 实现 方法 。 


传统 的 基于 大 型 计算 机 的 癌 上 扩展 方案 会 用 到 一 个 巨大 的 服务 器， 它 连 
接 到 一 个 同样 令 人 印象 深刻 的 存储 系统 。 几 了 乎 可 以 上 朋 定 ， 该 系统 使 用 了 
诸如 光纤 信道 之 类 的 技术 来 最 大 限度 地 提高 存储 市 宽 。 该 系统 可 以 完成 
上 述 任务 ， 却 会 变 成 JO 密 集 型 系统 ， 即 便 是 高 端 人 存储 交换 机 也 会 限制 
从 存储 系统 到 主机 的 数据 传输 速率 。 


为 一 种 方法 基于 之 前 提 到 的 集群 搁 术 ， 该 方法 会 用 到 一 个 由 1000 台 机 融 
组 成 的 集群 。 这 1000 台 主机 被 划分 为 4 个 象限 ， 每 个 象限 对 应 一 种 操 
作 。 每 台 主 机 都 存 有 1 TB 数据 并 负责 执行 四 项 操作 之 一 。 集 群 管理 软件 
将 会 协调 数据 在 集群 间 的 流转 ， 确 保 每 块 数据 都 经 过 4 个 处 理 过程 。 当 
每 块 数据 在 其 目 身 驻 留 的 主机 上 进行 一 次 运算 之 后 ， 就 会 被 传送 到 其 他 
三 个 象限 。 因 此 ， 这 个 数据 处 理 任务 实际 上 消耗 了 3 PB 的 网 络 市 宽 。 


请 注意 ，CPU 处 理 能 力 提 升 的 速度 已 经 超过 了 网 络 或 硬盘 技术 。 那 么 ， 
难道 这 些 是 解决 问题 的 最 好 办 法 吗 ? 最 近 的 经 验 表明 ， 答 案 是 否定 的 ， 
另 一 种 蔡 代 方法 是 移动 处 理 过 程 而 避免 移动 数据 。 使 用 刚才 提 到 的 集群 
技术 ， 但 不 要 分 阶段 处 理 数据 ， 而 是 让 1000 个 市 点 中 的 每 个 市 点 对 其 存 
储 的 数据 执行 全 部 4 个 处 理 阶段 。 如 果 笠 运 的 话 ， 此 时 只 需 将 数据 在 俐 
盘 上 流转 一 次 ， 而 在 网 络 上 传输 的 将 是 二 进 制 程序 和 状态 报告 ， 二 者 相 
对 于 有 问题 的 实际 数据 集 来 讲 ， 真 是 小 了 不见 大 琴 。 


如 宁 一 个 有 着 1000 个 节点 的 集群 听 起 来 大 得 离 谐 ， 那 么 想像 一 下 那些 用 














于 大 数据 解决 方案 的 现代 服务 器 的 构成 模块 。 每 台 这 种 单机 都 配 有 12 个 
容量 为 1 TB 甚至 2 TB 的 硬盘。 因为 现代 处 理 右 是 多 核 的 ， 构 建 一 个 由 50 
个 节点 组 成 的 集群 并 非 难事 ， 这 个 集群 有 1 PB 的 存储 能 力 ， 并 有 一 个 
CPU 专 门 用 于 处 理 从 每 个 硬盘 传 出 的 数据 。 





6. 构建 应 用 程序 ， 而 非 基 础 架构 


当 思 考 上 节 中 提 到 的 问题 时 ， 多 数 人 会 将 精力 集中 在 数据 迁移 和 数据 处 
理 的 问题 上 。 但 是 ， 曾 经 搭建 过 这 种 系统 的 人 就 会 知道 ， 大 部 分 精力 却 
是 用 在 设计 一 些 不 太 明 显 的 因素 的 处 理 逻 辑 上 ， 如 任务 调度 、 异 常 处 
理 、 协 调配 合 等 。 


我 们 必须 实现 一 些 机 制 来 确定 在 哪 台 主机 上 执行 处 理 任务 、 实 现 处 理 过 
程 、 将 子 结果 合并 为 整体 结果 ， 并 且 无 法 从 以 前 的 模型 中 获得 多 少 帮 
助 。 我 们 需要 明确 地 管理 数据 分 区 ， 这 只 征用 一 个 难题 换 来 了 万 一 个 难 
题 


NE o 


上 述 问题 与 我 们 将 强调 的 最 新 研究 趋势 相关 : 透明 处 理 集群 的 大 部 分 结 
构 问 题 ， 让 开发 者 专注 于 思考 业务 问题 。 基 于 明确 定义 的 系统 接口 ， 开 
发 者 可 以 创建 特定 业务 领域 的 应 用 程序 ， 提 供 此 类 接口 的 框架 将 是 开发 
者 和 系统 效率 的 最 佳 组 合 。 











1.1.4 Hadoop 


得 知 上 述 方法 都 是 Hadoop 的 主要 特性 之 后 ， 思 维 续 密 的 读者 并 不 会 感到 
尺 讶 。 但 直到 现在 ， 我 还 没有 准确 地 回答 什么 是 Hadoop。 





1. 感谢 Google 


Hadoop 起 源 于 Google。Google 公 司 于 2003 年 和 2004 年 发 表 了 两 篇 描述 

Google 技 术 的 学 术 论 文 : 谷歌 文件 系统 (GFS) 
(http://research.google.com/archive/gfs.html ) 和 MapReduce 
(http://research.google.com/archive/mapreduce.html ) 。 它 们 提供 了 一 个 


高 效 处 理 极 大 规模 数据 的 平台 。 





2. 感谢 Doug 


与 此 同时 ，Doug Cutting 正 在 研究 开源 的 网 页 搜索 引擎 Nutch。 他 一 直 致 
力 于 系统 原理 的 工作 ， 当 Google 的 GFS 和 MapReduce 论 文 发 表 后 ， 引 起 
了 他 的 强烈 共鸣 。Doug 开 始 着 手 实现 这 些 Google 系 统 ， 不 久之 后 ， 
Hadoop 诞 生 了 。Hadoop 早 期 以 Lucene 子 项 目的 形式 出 现 ， 不 久之 后 成 
了 Apache 开 源 基 金 会 的 顶级 项 目 。 因 此 ， 从 本 质 上 来 讲 ，Hadoop 是 一 
个 实现 了 MapReduce 和 GFS 技 术 的 开源 平台 ， 它 可 以 在 由 低 成 本 硬件 组 
成 的 集群 上 处 理 极 大 规模 的 数据 集 。 


3. 感谢 Yahoo 


2006 年 ，Yahoo 雇 用 了 Doug Cutting 并 迅速 成 为 Hadoop 项 目 最 重要 的 支 
持 者 之 一 。 除 了 经 常 推广 一 些 全 球 最 大 规模 的 Hadoop 部 和 敬之 外 ，Yahoo 
允许 Doug 和 其 他 工程 师 们 在 受 雇 于 Yahoo 期 间 ， 致 力 于 Hadoop 的 工作 。 
同时 ，Yahoo 也 页 献 了 一 些 公 司 内 部 开发 的 Hadoop 改 进 和 扩展 程序 。 尽 
管 Doug 目 前 已 经 转 到 Cloudera 〈 另 一 家 大 力 文 持 Hadoop 团 体 的 创业 公 
司 ) 任职 ，Yahoo 的 Hadoop 团 队 已 经 分 拆 为 名 叫 Hortonworks 的 创业 公 
司 ，Yahoo 依 然 是 Hadoop 的 一 个 主要 支持 者 。 





4. Hadoop 的 组 成 部 分 


作为 一 个 顶级 项 目 ，Hadoop 项 目 包含 许多 组 件 子 项 目 。 本 书 中 将 讨论 其 
中 几 个 子 项 目 ， 最 主要 的 两 个 子 项 目 分 别 为 Hadoop 分 布 式 文 件 系统 

(HDFS) 和 MapReduce。 这 两 个 子 项 目 是 对 Google 特 有 的 GFS 和 
MapReduce 的 直接 实现 。 本 书 将 详细 讨论 HDFS 及 MapReduce， 但 现在 
最 好 将 它们 视 为 一 对 独立 而 又 互补 的 技术 。 


HDFS 是 一 个 可 以 存储 极 大 数据 集 的 文件 系统 ， 它 是 通过 癌 外 扩展 方式 
构建 的 主机 集群 。 它 有 痢 独 特 的 设计 和 性 能 特点 ， 特 别 是 ，HDFS 以 时 
人 否 吐 量 进 行 了 优化 ， 并 且 通 过 副本 蔡 换 见 余 达到 了 电 可 菲 























MapReduce 是 一 个 数据 处 理 范 式 ， 它 规范 了 数据 在 两 个 处 理 阶段 〈 被 
称 为 Map 和 Reduce) 的 输入 和 输出 ， 并 将 其 应 用 于 任意 规模 的 大 数据 

集 。MapReduce 与 HDFS 紧 密 结合 ， 确 保 在 任何 情况 下 ，MapReduce 任 
务 直接 在 存储 所 需 数据 的 HDFS 节 点 上 运行 。 








5. 公共 构建 模块 


HDFS 和 MapReduce 都 体现 了 一 些 上 一 节 描 述 的 体系 原则 。 特 别 是 : 

。 都 是 面向 廉价 服务 器 《〈 也 就 是 次， 中 低 端 ) 集群 设计 的 ; 

。 都 是 通过 增加 更 多 的 服务 器 来 实现 系统 扩展 (向 外 扩展 ); 

。 都 包含 了 检测 和 处 理 故 障 的 机 制 |; 

。 都 透明 地 提供 了 许多 服务 ， 从 而 使 用 户 可 以 更 专注 于 手头 的 问题 ; 


。 部 采用 了 同样 的 架构 ， 其 中 驻 留 在 物理 服务 器 上 的 软件 集群 控制 
着 系统 运行 的 各 个 方面 。 





6. HDFS 


HDFS (Hadoop Distributed File System，Hadoop 分 布 式 文件 系统 ) 与 之 
前 所 见 过 的 大 部 分 文件 系统 都 不 太一 样 。HDFS 是 一 个 不 具备 POSIX 兼 
容 性 的 文件 系统 ， 这 基本 上 意味 着 它 不 能 提供 像 普 通 文件 系统 一 样 的 保 
障 。 它 也 是 一 个 分 布 式 文件 系统 ， 这 意味 着 它 在 众多 节点 上 扩大 了 存 

储 ; 在 某 些 年 以 前 的 技术 中 ， 缺 乏 这 种 高 效 的 分 布 式 文件 系统 是 一 个 限 
制 性 因素 。HDFS 的 主要 特点 如 下 所 示 。 


。HDFS 通 常 以 最 小 64 MB 的 数据 块 存储 文件 ， 这 比 之 前 多 数 文件 系 
统 中 的 4 KB~32 KB 分 块 大 得 多 。 


HDFS 在 时 延 的 基础 上 对 吞吐 量 进行 了 优化 ， 它 能 够 高 效 处理 对 大 
文件 的 读 请 求 流 ， 但 不 擅长 对 众多 小 文件 的 定位 请 求 。 


HDFS 对 普遍 的 “一 次 写 入 ， 多 次 读 取 ” 的 工作 负载 进行 了 优化 。 


每 个 存储 节点 上 运行 着 一 个 称 为 DataNode 的 进程 ， 它 管理 着 相应 主 
机 上 的 所 有 数据 卖 。 这 些 存储 节点 部 由 一 个 称 为 NameNode 的 主 进 
程 来 协调 ， 该 进程 运行 于 一 台独 立 主 机 上 。 


与 磁盘 阵列 中 设置 物理 元 余 来 处 理 磁盘 故障 或 类 似 策 略 不 同 ， 

HDFS 使 用 副本 来 处 理 故障 。 每 个 由 文件 组 成 的 数据 块 存 储 在 集群 
中 的 多 个 节点 ，HDFS 的 NameNode 不 断 地 监视 各 个 DataNode 发 来 的 
报告 ， 以 确保 发 生 故 障 时 ， 任 意 数据 块 的 副本 数量 都 大 于 用 户 配置 























的 复制 因子 。 和 否则 ，NameNode 会 在 集群 中 调度 新 增 一 个 副本 。 
7. MapReduce 


虽然 MapReduce 技 术 相 对 较 新 ， 但 它 建 立 在 数学 和 计算 机 科学 的 众多 基 
础 工作 之 上 ， 尤 其 是 适用 于 每 个 数据 元 素 的 数据 操作 的 描述 方法 。 实 际 
上 ，map 和 reduce 函数 的 概念 直接 来 自 于 函数 式 编程 语言 。 在 水 数 式 
编程 语言 中 ，map 和 reduce 函数 被 用 于 对 输入 数据 列表 进行 操作 。 


另 一 个 关键 的 基本 概念 是 “分 而 治之 ”。 这 个 概念 的 基本 原则 是 ， 将 单个 
问题 分 解 成 多 个 独立 的 子 任务 。 如 条 多 个 子 任务 能 够 并 行 执行 ， 这 种 方 
法 更 为 强大 。 在 理想 情况 下 ， 一 个 需要 运行 1000 分 钟 的 任务 可 以 通过 分 
解 成 1000 个 并 行 的 子 任务 ， 在 1 分 钟 内 即 可 完成 。 


MapReduce 是 一 个 基于 上 述 原 理 的 处 理 范 式 ， 它 实现 了 从 源 数 据 集 到 
结果 数据 集 的 一 系列 转换 。 在 最 简单 的 情况 下 ， 作 业 的 输入 数据 作 

为 map 函数 的 输入 ， 所 得 到 的 临时 数据 作为 reduce 函数 的 输入 。 开 发 
人 员 只 需 定义 数据 转换 形式 ，Hadoop 的 MapReduce 作 业 人 负责 并 行 地 对 集 
群 中 的 数据 实施 所 需 转换 。 虽 然 基本 的 想法 可 能 并 无 太 大 新 意 ， 但 
Hadoop 的 一 个 主要 优势 在 于 它 如 何 将 这 坚 想 法 变 成 一 个 糊 心 设计 的 可 用 
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传统 的 关系 型 数据 库 适用 于 符合 定义 模式 的 结构 化 数据 。 与 之 不 同 ， 
MapReduce 和 Hadoop 在 半 结 构 化 或 非 结 构 化 数据 上 表现 最 好 。 与 符合 刚 
性 模式 的 数据 不 同 ，MapReduce 和 Hadoop 仅 要 求 将 数据 以 一 系列 键 值 对 
的 形式 提供 给 map 函数 。map 函数 的 输出 是 其 他 键 值 对 的 集合 ，reduce 
函数 收集 汇总 最 终 的 结果 数据 集 。 


Hadoop 为 map 和 reduce 函数 提供 了 一 个 标准 规范 《〈 即 接口 ) ， 上 述 规 
范 的 具体 实现 通常 被 称 为 mapper 和 reducer 。 一 个 典型 的 MapReduce 作 
业 包 括 多 个 mapper 和 reducer， 通 名 这 些 mapper 和 reducer 并 不 是 很 简单 。 
开发 人 员 将 精力 集中 于 表达 从 数据 源 到 结果 数据 集 的 转化 关系 上 ， 而 

Hadoop 框 架 会 管理 任务 执行 的 各 个 方面 : 并 行 处 理 ， 协 调配 合 ， 等 等 。 


最 后 一 点 可 能 是 Hadoop 最 重要 的 一 个 方面 。Hadoop 平 人 台 负 责 执行 数据 
处 理 的 各 个 方面 。 在 用 户 定 义 了 任务 的 关键 指标 后 ， 其 余 事 情 都 变 成 了 
系统 的 黄 任 。 更 重要 的 是 ， 从 数据 规模 的 角度 来 看 ， 同 一 个 MapReduce 











作业 适用 于 存储 在 任意 规模 集群 上 的 任意 大 小 的 数据 集 。 如 果 要 处 理 的 
是 单 台 主 机 上 的 1 GB 数据 ，Hadoop 会 相应 地 安排 处 理 过 程 。 即 便 要 处 
理 的 是 托管 在 超过 1000 台 机 器 上 的 1 PB 数据 ，Hadoop 依 然 同 样 工 作 。 它 
会 确定 如 何 最 高 效 地 利用 所 有 主机 进行 工作 。 从 用 户 的 角度 来 看 ， 实 际 
数据 和 集群 的 规模 是 透明 的 ， 除 了 处 理 作 业 所 花费 的 时 间 受 影响 外 ， 它 
们 不 会 改变 用 户 与 Hadoop 的 交互 方式 。 


8. 组 合 使 用 效果 更 佳 


我 们 有 可 能 已 经 体会 到 了 HDFS 和 MapReduce 各 自 的 价值 ， 但 当 它 们 组 
合 使 用 时 威力 更 强大 。 作 为 一 个 大 规模 数据 存储 平台 ，HDFS 并 非 必 须 
与 MapReduce 配 套 使 用 。 尽 管 MapReduce 可 以 从 HDFS 之 外 的 数据 源 读 
取 数 据 ， 并 且 对 这 些 数 据 执行 的 处 理 操 作 与 HDFS 是 一 致 的 ， 但 截至 目 
前 ， 将 HDFS 和 MapReduce 组 合 使 用 是 最 为 常见 的 情况 。 


当 执 行 MapReduce 作 业 时 ，Hadoop 需 要 决定 在 哪 台 主机 执行 代码 才能 最 
高 效 地 处 理 数 据 集 。 如 果 MapReduce 集 群 中 的 所 有 主机 从 单个 存储 主机 
或 存储 阵列 获取 数据 ， 在 很 大 程度 上 ， 在 哪 台 主 机 执行 代码 并 不 重要 ， 
因为 存储 系统 是 一 个 会 引发 竞争 的 共享 系统 。 但 如 果 使 用 HDFS 作 为 存 
储 系统 ， 基 于 移动 数据 处 理 程序 比 迁 移 数 据 本 身 成 本 更 低 的 原则 ， 
MapReduce 可 以 在 目标 数据 的 存储 节点 上 执行 数据 处 理 过 程 。 


最 常见 的 Hadoop 部 署 模型 是 将 HDFS 和 MapReduce 集 群 部 署 在 同一 组 服 
务 器 上 。 其 中 每 台 服 务 器 不 仅 承载 了 待 处 理 数 据 及 管理 这 些 数据 的 
HDFS 组 件 ， 同 时 也 承载 了 调度 和 执行 数据 处 理 过 程 的 MapReduce 组 
件 。 当 Hadoop 接 收 到 作业 后 ， 它 尽 可 能 对 驻 留 在 主机 上 的 数据 调度 进行 
优化 ， 达 到 网 络 流量 最 小 化 和 性 能 最 大 化 的 目标 。 


回想 一 下 以 前 的 例子 ， 如 何 对 分 布 在 1000 台 服务 器 上 的 1 PB 数据 执行 4 
个 步骤 的 处 理 任务 。MapReduce 模 型 《以 一 种 稍微 简化 和 理想 化 的 方 
式 ) 对 HDFS 中 每 台 主 机 上 的 每 块 数 据 执行 map 函数 定义 的 处 理 操作 ， 
0 


Hadoop 的 部 分 挑战 在 于 ， 如 何 将 单个 问题 分 解 成 map 函数 和 reduce 子 
数 的 最 佳 组 合 。 前 述 方 法 只 适用 于 4 阶段 处 理 链 可 独立 应 用 于 每 个 数据 
元 素 的 情况 。 在 后 续 章 节 将 会 看 到 ， 有 时 要 使 用 多 个 MapReduce 作 业 ， 





























其 中 某 个 作业 的 输出 将 作为 下 一 个 作业 的 输入 。 





正如 之 前 所 提 到 的 ，HDFS 和 MapReduce 软 件 集群 有 着 下 列 共 同 特点 。 
。 采用 了 相同 的 体系 结构 ， 用 专门 的 主 市 把 对 工作 市 点 集群 进行 管 
1 





每 种 情景 的 主 节点 (HDFS 的 主 节 点 是 NameNode，MapReduce 的 主 
节点 是 JobTracker) 监视 集群 的 运行 状况 并 处 理 故障 ， 处 理 方式 包 
括 移 走 数据 块 或 者 重新 调度 失败 的 作业 。 


台 服 务 器 上 的 进程 (HDFS 的 进程 是 DataNode，MapReduce 的 进 
程 是 TaskTracker) 负责 在 物理 主机 上 执行 任务 ， 包 括 从 NameNode 
或 者 JobTracker 接 收 指令 和 回 其 报告 健康 状态 和 运行 状况 。 


作为 一 个 小 的 术语 点 ， 主 机 或 服务 器 通常 指 的 是 承载 各 种 Hadoop 组 件 
的 物理 硬件。 市 点 指 的 是 作为 集群 组 成 部 分 的 软件 部 件 。 








10. 优势 与 劣势 


与 其 他 工具 一 样 ， 弄 清楚 在 什么 情况 下 选择 使 用 Hadoop 解 决 面临 的 问题 
非常 重要 。 本 书 大 部 分 内 容 会 在 之 前 大 数据 处 理 技术 综述 的 基础 上 强调 
Hadoop 的 优势 ， 但 在 早期 阶段 ， 理 解 在 什么 情况 下 Hadoop 并 非 最 好 的 
选择 也 同样 重要 。 


Hadoop 选 用 的 体系 染 构 使 其 成 为 现在 这 样 灵活 且 可 扩展 的 数据 处 理 平 
台 。 但 是 ， 与 选择 大 多 数 染 构 或 设计 类 似 ， 必 须 理 解 一 些 由 此 引发 的 后 
朵 。 其 中 最 主要 的 是 ，Hadoop 是 一 个 批量 处 理 系统 。 当 对 一 个 大 数据 集 
执行 作业 时 ，Hadoop 框 染 会 不 断 进 行 数据 转换 直到 生成 最 终结 有 果 。 由 于 
采用 了 大 的 集群 ，Hadoop 会 相对 快速 地 生成 结果 ， 但 事实 上 ， 结 果 生 成 
的 速度 还 不 足以 满足 缺乏 耐心 的 用 户 的 需求 。 因 此 ， 单 独 的 Hadoop 不 适 
用 于 低 时 延 查 询 ， 例 如 网 站 、 实 时 系统 或 者 类 似 得 询 。 


当 使 用 Hadoop 处 理 大 数据 集 时 ， 安 排 作 业 、 确 定 每 个 节点 上 运行 的 任务 
及 其 他 所 有 必需 的 内 务 管理 活动 需要 的 时 间 开 销 在 整个 作业 执行 时 间 中 











征 微 不 足 着 的 。 但 是 ， 对 于 小 数据 集 而 言 ， 上 述 执行 开销 意味 着 ， 即 使 
是 简 单 的 MapReduce 作 业 都 可 能 花费 全 少 10 秒 钟 。 


提示 : HBase 是 广义 Hadoop 家 族 的 另 一 位 成 员 ， 它 是 另 一 种 谷歌 技 
术 的 开源 实现 。 它 提供 了 一 个 基于 Hadoop 的 非 关 系 型 数据 库 ， 使 用 了 
多 种 方法 提供 低 延 到 的 查询 服 务 。 


但 是 ， 难 道 Google 和 Yahoo 不 是 Hadoop 最 强大 的 支持 者 吗 ? 在 它们 的 网 
站 中 ， 难 道 啊 应 时 间 不 是 最 重要 的 吗 ? 管 案 是 肯定 的 ， 这 种 现象 强调 了 
一 个 重要 方面 ， 即 如 何 将 Hadoop 与 其 他 技术 结合 起 来 发 挥 共同 优势 。 在 
一 篇 论文 里 (http://research.google.com/archive/googlecluster.html ) ， 谷 
歌 简 述 了 他 们 如 何 实 时 地 使 用 MapReduce: 在 网 络 爬 虫 获 取 到 更 新 的 网 
页 数据 后 ，MapReduce 对 庞大 的 数据 集 进行 处 理 ， 并 基于 此 生成 网 页 索 
41， 这 些 检索 被 一 组 MySQL 服 务 器 用 于 为 终端 用 户 的 搜索 请 求 提供 服 
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1.2 ”基于 Amazon Web Services 的 云 计 算 


云 计 算是 本 书 介绍 的 另 一 个 技术 领域 。 书 中 以 Amazon Web Services 作 为 
云 计 算 平台 的 例子 ， 介 绍 它 的 一 些 使 用 实例 。 但 首先 ， 我 们 需要 了 解 一 
些 围绕 云 计 算 的 炒作 和 流行 语 。 


1.2.1 云 太 多 了 


云 计算 已 经 成 为 一 个 被 滥用 的 术语 ， 可 以 说 ， 云 计算 概念 的 泪 用 使 其 面 
临 变 得 时 无 意义 的 风险 。 因 此 ， 在 本 书 中 使 用 这 个 术语 的 时 候 ， 务 必 清 
楚 并 谨慎 表达 我 们 的 真实 意思 。 云 有 两 个 主要 的 特点 : 既是 一 种 新 的 可 
选 架 构 ， 也 是 一 种 解决 成 本 的 不 同方 法 。 





1.2.2 第 三 种 方法 


我 们 已 经 讨论 了 扩展 数据 处 理 系 统 的 两 种 方法 : 问 上 扩展 和 辐 外 扩展 。 
但 是 迄今 为 止 ， 前 述 讨 论 想 当然 地 认为 无 论 哪 一 种 方法 的 实现 ， 都 需要 
系统 开发 团队 购买 、 拥 有 、 安 装 并 管理 物理 人 硬件。 云 计算 提供 了 第 三 种 
办 法 : 用 户 把 应 用 程序 放 到 云端 ， 让 供应 商 处 理 系统 扩展 的 问题 。 


当然 ， 这 并 不 总 是 那么 简单 。 但 是 对 于 许多 云 服务 来 讲 ， 这 种 模式 才 是 
真正 的 革命 。 用 户 根据 一 些 公 开 的 指南 或 者 接口 开发 软件 ， 然 后 把 它 部 
普 到 云 平台 ， 并 人 允许 它 在 成 本 允许 的 前 提 下 根据 需要 扩展 服务 。 但 是 由 
于 扩展 系统 通 闻 涉及 成 本 ， 所 以 这 是 一 个 引 人 关 注 的 命题 。 


1.2.3 不 同类 型 的 成 本 


这 种 云 计 算 方 式 同时 也 改变 了 系统 硬件 的 付费 方式 。 通 过 降低 硬件 基础 

设施 成 本 ,构建 能 承载 数 千 甚 至 数 百 万 客户 的 平台 ， 云 服务 提供 商 借 此 

获得 规模 经 济 ， 同 时 所 有 用 户 都 从 中 受益 。 作 为 使 用 者 ， 不 仅 有 人 蔡 你 

操心 难度 较 大 的 工程 问题 ， 如 扩展 系统 的 问题 ， 而 且 你 可 以 根据 需要 的 

负载 付费 ， 而 不 必 基 于 可 能 需要 的 最 大 工作 负载 来 确定 系统 规模 。 相 

i 
或 少 的 资源 。 





























下 面 这 个 例子 可 以 说 明 这 一 点 。 因 为 要 计算 税 绩 和 工资 数据 ， 许 多 公司 
的 财务 组 在 月 底 的 工作 量 较 大 ， 而 且 通 常年 底 的 数据 处 理 任 务 会 更 大 。 
如 果 需 要 设计 一 个 这 种 系统 ， 购 买 多 少 硬件 最 为 合适 ? 如 采购 买 的 硬件 
仅 够 处 理 日 疝 工 作 量 ， 系 统 可 能 会 在 月 砌 陷入 困境 ， 真 正 的 麻烦 可 能 

现 于 年 底 处 理 任务 运转 起 来 的 时 候 。 如 果 以 月 底 的 工作 量 来 度量 系统 规 
模 ， 系 统 的 部 分 硬件 将 会 在 一 年 的 大 部 分 时 间 处 于 朵 置 状 态 ， 而 且 仍然 
可 能 在 处 理 年 底 任务 的 时 候 陷 入 困境 。 如 果 根 据 年 底 的 工作 量 来 确定 系 
统 规模 ， 在 一 年 的 其 余 时 间 里 ， 系 统 会 有 大 量 的 用 置 产 能 。 除 了 考虑 购 
买 硬 件 的 成 本 ， 还 要 考虑 托管 和 运行 成 本 服务 器 的 用 电量 可 能 占 到 其 
生命 周期 中 成 本 的 一 大 部 分 ) ， 你 基本 上 浪费 了 大 量 的 金钱 。 


云 计 算 按 需 服 务 的 特性 可 让 用 户 的 应 用 程序 在 一 个 规模 不 大 的 人 硬件 上 起 
步 ， 然 后 随 着 时 间 的 发 展 ， 癌 上 或 网 下 动态 调整 其 便 件 规模 。 基 于 按 需 
付费 的 模式 ， 用 户 成 本 随 铸 其 便 件 使 用 情况 而 变化 。 用 户 拥 有 处 理 负载 
的 能 力 ， 却 无 需 购买 足够 处 理 峰 值 负 载 的 硬件 。 


这 种 模型 更 微妙 的 特性 在 于 ， 它 大 大 降低 了 企业 发 布 在 线 服务 的 进入 成 
本 。 众 所 周知 ， 一 个 无 法 满足 需求 并 遭遇 性 能 问题 的 新 的 热点 服务 ， 将 
很 难 恢 复 其 发 展 势 头 和 重新 引起 用 户 兴趣 。 例 如 ， 在 2000 年 ， 一 个 企业 
要 想 成 功 地 推出 新 品 ， 需 要 在 发 布 当天 落实 到 位 足够 的 容量 来 应 对 用 户 
流量 的 激增 ， 这 既是 他 们 所 期 望 的 ， 同 时 也 是 他 们 不 愿 看 到 的 。 将 物理 
单元 的 成 本 考虑 在 内 ， 在 产品 发 布 上 很 容易 就 会 花 掉 数 百 万 元 。 


如 今 ， 基 于 云 计算 ， 最 初 的 基础 设施 成 本 甚至 可 以 低 至 每 月 几 十 或 几 百 
美元 ， 而 且 这 只 在 需要 流量 的 时 候 才 会 有 所 增加 。 


























1.2.4 AWS: Amazon 的 弹性 架构 


Amazon Web Services (AWS) 是 Amazon 提供 的 一 整套 云 计 算 服 务 。 本 书 
将 会 用 到 其 中 几 种 服务 。 


1. 弹性 计算 云 (EC2) 


Amazon 的 弹性 计算 云 (EC2， 参 见 http://aws.amazon.com/ec2/ ) ， 其 本 
质 上 是 一 个 弹性 服务 器 。 在 注册 AWS 和 EC2 之 后 ， 只 需 任 个 人 信用 卡 的 
有 关 信 息 即 可 获得 专用 虚拟 机 的 访问 权限 ， 在 这 些 服务 器 上 可 以 很 容易 
地 运行 多 种 操作 系统 ， 包 括 Windows 和 Linux 的 许多 变种 。 





需要 更 多 的 服务 器 吗 ? 只 需 启动 更 多 的 机 器 。 需 要 更 强大 的 服务 嚣 吗 ? 
只 需 切 换 到 提供 更 高 规格 的 服务 器 上 ， 当 然 使 用 成 本 也 随 之 上 升 。 不 仅 
如 此 ，EC2 提 供 了 一 系列 免费 服务 ， 包 括 负载 均衡 器 、 静 态 卫 地址 、 额 
外 的 高 性 能 虚拟 磁盘 驱动 器 ， 和 其 他 更 多 服务 。 


2. 简单 存储 服务 (S3) 


Amazon 的 S3 (Simple Storage Service， 人 简单 存储 服务 ， 参 见 
http://aws.amazon.com/s3/ ) 是 一 种 提供 简单 键 值 存储 模式 的 存储 服 
务 。 利 用 网 络 、 命 令 行 或 者 编程 接口 创建 对 象 ， 这 些 对 象 可 以 是 从 文本 
文件 到 图 片 到 MP3 的 一 切 对 象 。 基 于 层次 模型 ， 用 户 能 够 在 S3 中 存储 并 
获取 数据 。 在 这 个 模型 中 ， 用 户 可 以 创建 存放 对 象 的 桶 (bucket) 。 
个 桶 都 有 一 个 唯一 标识 符 ， 并 且 桶 中 的 每 个 对 象 都 是 唯一 命名 的 。 这 种 
简单 的 策略 成 就 了 一 个 非常 强大 的 服务 ，Amazon 负责 数据 的 可 靠 性 和 
可 用 性 ， 以 及 服务 扩展 等 各 个 方面 。 








3. 弹性 MapReduce (EMR ) 


Amazon 的 弹性 MapReduce (EMR， 人 参见 
http://aws.amazon.com/elasticmapreduce/) ， 从 根本 上 来 讲 是 以 EC2 和 S3 
为 基础 的 云端 Hadoop。 同 样 地 ， 使 用 多 种 接口 〈CLI，Web 控 制 台 或 
API) ， 用 户 可 定义 一 些 Hadoop 工 作 流 属性 ， 例 如 所 需 的 Hadoop 主 机 数 
和 源 数 据 的 位 置 等 。 EMR 提 供 了 MapReduce 作 业 的 Hadoop 实 现代 码 ， 之 
后 虚拟 的 开始 按钮 被 按 下 。 


在 其 最 令 人 印象 深刻 的 模式 中 ，EMR 可 以 从 S3 获 取 源 数据 ， 利 用 基于 
EC2 创 建 的 Hadoop 集 群 来 处 理 这 些 数 据 ， 将 结果 返回 到 S3， 然 后 终止 
Hadoop 集 群 及 承载 它 的 EC2 虚 拟 机 的 运行 。 当 然 ， 每 个 服务 都 是 有 成 本 
的 ， 通 第 以 存储 的 数据 量 〈 以 GB 为 单位 ) 和 服务 器 使 用 时 间 为 计 费 基 
人 其 功能 真 的 是 


1.2.5 ”本 书 内 容 


本 书 中 ， 我 们 将 学 习 如 何 编写 MapReduce 程 序 做 一 些 重要 的 数据 转换 ， 
以 及 如 何在 本 地 管理 和 AWS 托 管 的 Hadoop 集 群 上 运行 MapReduce 程 


序 。 


我 们 不 仅 会 把 Hadoop 视 为 执行 MapReduce 作 业 的 引擎 ， 同 时 也 会 探索 将 
Hadoop 融 入 企业 其 他 基础 设施 和 系统 的 方法 。 我 们 会 看 到 一 些 共同 的 结 
合 点 ， 如 从 Hadoop 和 关系 型 数据 库 中 获取 数据 ， 以 及 如 何 使 Hadoop 看 
起 来 更 像 是 一 个 关系 数据 库 。 





双管齐下 


本 书 不 会 将 讨论 局 限 在 EMR 或 Amazon EC2 托 管 的 Hadoop。 我 们 在 讨论 
如 何 创建 和 管理 本 地 Hadoop 集 群 〈 在 Ubuntu Linux 系 统 上 ) 的 同时 ， 也 
会 演示 如 何 通 过 EMR 将 处 理 过 程 推 入 云端 。 


这 样 做 的 原因 来 自 两 方面 : 首先 ， 虽 然 EMR 使 Hadoop 更 易 访 问 ， 但 只 
有 当 手 工 管理 集群 时 ， 才 能 充分 体会 Hadoop 技 术 的 各 项 特点 。 尽 管 在 手 
工 模 式 下 也 可 以 使 用 EMR， 然 而 通常 使 用 本 地 集群 来 进行 学 习 研 究 。 其 
次 ， 使 用 托管 Hadoop 还 是 本 地 Hadoop 并 不 是 一 个 非 此 即 彼 的 选择 ， 有 
时 用 户 会 担忧 对 一 个 独立 的 外 部 供应 商 的 过 度 依赖 ， 所 以 许多 企业 混合 
使 用 本 地 和 云 托管 的 Hadoop 服 务 。 从 实战 来 讲 ， 在 本 地 进行 开发 和 小 规 
模 测 试 更 为 方便 ， 然 后 再 根据 产品 规模 将 其 部 署 到 云端 。 


在 后 面 的 一 些 章 节 中 ， 我 们 会 讨论 与 Hadoop 组 合 使 用 的 其 他 产品 。 在 这 
部 分 内 容 中 ， 本 书 只 给 出 一 些 本 地 集群 的 例子 ， 因 为 无 论 Hadoop 部 普 在 
何 处 ， 工 作 原 理 都 是 不 变 的 。 

















1.3 ”小结 
本 章 介 绍 了 关于 大 数据 、Hadoop 和 云 计 算 的 大 量 知识 。 


专门 探讨 了 大 数据 的 出 现 以 及 它 对 数据 处 理 方法 及 系统 染 构 的 改变 ， 这 
一 变革 几乎 可 以 让 任何 组 织 实 现 曾 经 昂贵 得 令 人 望而却步 的 技术 。 


本 章 还 回顾 了 ， 作 为 一 个 灵活 而 叉 功 能 强大 的 海量 数据 处 理 平台 ， 
Hadoop 的 产生 历史 和 构建 方式 。 我 们 还 研究 了 云 计 算 提 供 的 另 一 种 系统 
架构 方式 。 这 种 方式 从 前 期 巨额 成 本 和 直接 的 物理 贡 任 转变 为 按 需 付费 
模式 ， 并 依赖 云 服务 提供 商 来 提供 硬件 、 管 理 服务 和 扩展 系统 。 我 们 也 
明白 了 什么 是 Amazon Web Services， 以 及 弹性 MapReduce 服 务 怎样 利用 
其 他 AWS 服 务实 现 云端 Hadoop。 


我 们 还 讨论 了 本 书 的 目标 ， 以 及 如 何 学 习 本 地 Hadoop 和 AWS 托 管 的 
Hadoop。 


现在 ， 我 们 已 经 掌握 了 Hadoop 的 基础 知识 ， 并 了 解 了 这 项 技术 的 起 源 和 
优势 。 我 们 需要 动手 让 系统 运行 起 来 ， 这 也 是 第 2 章 将 要 做 的 : 安装 并 
运行 Hadoop。 














第 2 草 ” 安 疹 并 运行 Hadoop 


既然 我 们 已 经 研究 了 大 数据 处 理 带 来 的 机 遇 和 挑 成 ， 并 且 了 解 了 
Hadoop 的 优势 所 在 ， 现 在 就 来 安装 并 运行 Hadoop 吧 。 


本 章 包 括 以 下 内 容 : 
。 学 习 如 何在 本 地 Ubuntu 主 机 安装 并 运行 Hadoop:; 


运行 一 些 Hadoop 程 序 实例 并 熟悉 Hadoop 系 统 ; 


注册 使 用 Amazon Web Services 产 品 〈 如 EMR ) 所 需要 的 账号 ; 


在 Elastic MapReduce 上 创建 符合 需求 的 Hadoop 集 群 ; 


研究 本 地 Hadoop 集 群 与 托管 Hadoop 集 群 的 关键 区 别 。 


2.1 基于 本 地 Ubuntu 主机 的 Hadoop 系 统 


为 了 研究 云 外 的 Hadoop， 本 节 将 以 一 台 或 多 台 Ubuntu 主 机 为 例 。 一 台 主 
机 “一 台 物 理 计算 机 或 虚拟 机 ) 即 可 满足 运行 Hadoop 所 有 组 件 和 研究 
MapReduce 的 需要 。 然 而 ， 企 业 产 品 集群 很 可 能 由 多 人 台 机 器 组 成 ， 所 以 
如 果 能 在 部 署 于 多 人 台 主 机 的 Hadoop 集 群 进行 开 发 ， 读 者 将 获得 很 好 的 经 
验 。 然 而 ， 对 于 起 步 而 言 ， 单 台 主机 就 足够 了 。 


我 们 将 讨论 的 内 容 并 非 仅 限于 Ubuntu 操作 系统 ，Hadoop 能 够 在 任何 
Linux 操 作 系 统 上 运行 。 很 明显 ， 如 果 读 者 使 用 了 Ubuntu 之 外 的 操作 系 
统 ， 可 能 需要 修改 一 下 环境 配置 ， 但 区 别 应 该 不 大 。 


其 他 操作 系统 


Hadoop 在 其 他 平台 上 运行 效果 良好 。Windows 和 Mac OS X 都 是 开发 者 
的 热门 选择 。Windows 只 能 作为 Hadoop 的 开发 平台 ， 而 Mac OS X 没 有 
得 到 Hadoop 的 正式 支持 。 


如 果 选 择 使 用 这 类 平台 ， 情 况 将 与 使 用 其 他 Linux 发 行 版 本 相 类 似 。 在 
这 两 个 平台 上 使 用 Hadoop 处 理工 作 任务 的 方法 是 相同 的 ， 但 需要 使 用 操 
作 系 统 自 带 的 特定 机 制 设置 环境 变量 和 类 似 任 务 。Hadoop FAQ 包 含 一 
些 其 他 平台 的 信息 ， 如 果 读 者 打算 在 其 他 平台 运行 Hadoop， 应 当 首 先 参 
考 Hadoop FAQ 〈 人 参见 http://wiki.apache.org/hadoop/FAQ ) 解决 相关 问 
匮 。 




















2.2 ”实践 环节 : 检查 是 人 否 已 安装 JDK 


Hadoop 是 用 Java 实 现 的 ， 所 以 需要 首先 在 Ubuntu 主机 上 安装 最 新 的 Java 
开发 工具 包 〈JDK) 。 执 行 下 列 步 骤 检 查 JDK 是 否 可 用 : 











1. 首先 ， 打 开 一 个 终端 并 输入 以 下 内 容 来 检查 JDK 是 否 可 用 : 


$ javac 
$ java -version 








2. 如 果 上 述 命 令 返 回 “ 不 存在 这 样 的 文件 或 路 径 ” 或 者 类 似 的 错误 ， 或 
者 第 二 个 命令 返回 “打开 JDK” 的 提示 ， 很 可 能 需要 下 载 完整 的 
JDK。JDK 可 以 从 Oracle 下 载 页 面 获得 ， 地 址 
是 http://www.oracle.com/technetwork/java/javase/downloads/index.html 


， 从 中 选择 最 新 发 布 的 版 本 。 


3. 一 旦 安装 了 Java 之 后 ， 将 JDK/bin 路 径 添 加 到 用 户 路 径 ， 并 用 下 列 
命令 设置 JAVA_HOME 环境 变量 ， 注 意 将 Java 版 本 号 修改 成 读者 使 用 
的 Java 版 本 。 








$ export JAVA HOME=/opt/jdk1.6.6 24 
$ export PATH=$JAVA HOME/bin:${PATH} 





原理 分 析 


上 述 步骤 确保 用 户 安装 了 正确 的 Java 版 本 ， 并 可 以 在 命令 行 下 调用 ， 而 
无 须 使 用 元 长 的 路 径 名 指明 安装 位 置 。 


请 注意 ， 上 面 的 命令 只 对 当前 正在 运行 的 shell 产 生 影 响 。 这 些 设置 将 在 
注销 用 户 ， 关 闭 shell， 或 重新 有 启动 系 统 之 后 清除 。 为 了 确保 相同 的 设置 
始终 有 效 ， 可 以 把 这 些 设置 添加 到 读者 选中 的 shell 启 动 文件 内 。 例 如 ， 
对 于 Bash shell 来 讲 ， 其 启动 文件 为 .bash _profile ， 对 于 TCSH 来 











讲 ， 其 局 动 文件 为 .cshrc 。 


我 所 青睐 的 男 一 种 方法 是 ， 把 所 有 必需 的 配置 放 入 一 个 独立 的 文件 ， 然 
后 从 命令 行 显 式 地 调用 此 文件 。 例 如 : 


$ source Hadoop_config.sh 


这 种 方法 允许 读者 在 同一 账户 内 保持 多 个 安装 文件 ， 而 不 臻 于 使 shell 局 
动 过 程 过 于 复杂 。 更 不 用 次 ， 茶 些 应 用 程序 所 需 的 配置 确实 可 能 与 其 他 
程序 的 配置 不 兼容 。 别 二 了 在 每 次 开局 会 话 前 载 入 该 文件 。 





2.2.1 安装 Hadoop 


对 于 初学 者 来 讲 ，Hadoop 最 令 人 困惑 的 一 个 方面 在 于 它 众多 的 组 件 、 工 
程 、 子 工程 ， 以 及 它们 之 间 的 内 在 关系 。 事 实 上 ， 随 着 时 间 的 推移 ， 这 
些 组 件 都 发 生 了 变化 ， 然 而 却 并 没有 使 这 一 切 变 得 更 容易 理解 。 不 这， 

从 今 往 后 ， 访 问 网 站 http://hadoop.apache.org 会 看 到 Hadoop 包 括 曾 提 到 

过 的 3 个 主要 工程 : 





e。 Common 

。 HDFS 

。 MapReduce 
通过 第 1 章 的 解释 ， 我 们 应 该 对 后 两 项 内 容 较 为 熟悉 。Common 工 程 是 
Hadoop 项 目的 核心 部 分 ， 包 括 一 组 运行 库 和 各 种 工具 ， 它 们 帮助 


Hadoop 实 际 运 作 。 目 前 重要 的 是 ， 标 准 的 Hadoop 发 行 版 软件 包含 了 这 3 
个 项 目的 最 新 版 本 ， 它 们 的 组 合 正 是 运行 Hadoop 所 需要 的 。 


各 版 本 的 注意 事项 


从 0.19 到 0.20 版 本 ，Hadoop 发 生 了 重大 的 变化 。 尤 其 是 ， 用 于 开发 
MapReduce 应 用 的 API 迁 移 到 了 一 组 新 API。 本 书 中 ， 我 们 将 主要 使 用 新 
API， 但 是 后 面 的 章节 中 也 包含 了 一 些 旧 API 的 例子 ， 这 是 因为 现在 并 
没有 将 现 有 的 所 有 功能 都 移植 到 新 API。 





自从 0.20 分 支 被 重 命名 为 1.0，Hadoop 的 版 本 管理 也 变 得 复杂 。0.22 和 
0.23 分 支 仍 然 存 在 ， 事 实 上 还 包含 了 一 些 1.0 分 文 所 不 包含 的 特性 。 在 写 
作 本 书 的 时 候 ， 由 于 1.1 和 2.0 分 支 被 用 作 将 来 的 开发 版 本 ， 所 以 事情 变 
得 更 加 清晰 。 由 于 大 多 数 现 有 的 系统 和 第 三 方 工具 是 针对 0.20 分 支 开 发 
的 ， 本 书 中 ， 我 们 将 使 用 Hadoop 1.0 作 为 例子 。 








2.3 ”实践 环节 : 下 载 Hadoop 
执行 以 下 操作 来 下 载 Hadoop。 
1. 访问 Hadoop 下 载 页 面 ， 网 址 
为 http://hadoop.apache.org/common/releases.html ， 获 取 1.0.x 分 支 的 
最 新 稳定 版 本 。 本 书写 作 时 ， 最 新 稳定 版 为 1.0.4。 


2. 选择 一 个 本 地 镜像 ， 之 后 以 类 似 hadoop-1.6.4-bin.tar.gz 的 名 
字 下 载 文件 。 


3. 使 用 如 下 命令 将 文件 拷贝 到 Hadoop 的 安装 路 径 〈 例 
如 ，/usr/local ) : 








$ cp Hadoop-1.6.4.bin.tar.gz /usr/local 





4. 使 用 如 下 命令 将 文件 解压 缩 : 


$ tar -xf hadoop-1.9.4-bin.tar.gz 





5. 为 Hadoop 的 安装 路 径 添 加 方便 使 用 的 符号 链接 。 


$ ln -s /usr/local/hadoop-1.60.4 /opt/hadoop 





6. 现在 ， 需 要 将 Hadoop 的 二 进 制 目录 添加 到 PATH 变量 ， 并 设 
置 HADOOP_HOME 环境 变量 ， 就 如 设置 Java 一 般 。 





$ export HADOOP_ HOME=/usr/local/Hadoop 
$ export PATH=$HADOOP_ HOME/bin:$PATH 


IE 
7. 在 Hadoop 安 装 路 径 下 ， 进 入 conf 目录 并 编辑 Hadoop-env .sh 文 
件 。 搜 索 JAVA_HOME 并 取消 该 行 的 注释 ， 修 改 其 路 径 使 其 指向 JDK 
的 安装 路 径 ， 如 前 所 述 。 
原理 分 析 
上 述 步 又 确保 Hadoop 已 经 安装 并 可 通过 命令 行 调用 。 通 过 设置 path 及 
环境 变量 ， 我 们 可 以 使 用 Hadoop 的 命令 行 工 具 。Hadoop 配 置 文件 的 修 
改 ， 是 安装 过 程 所 需 的 唯一 改动 ， 为 的 是 与 主机 设置 相 结合 。 


如 前 所 述 ， 读 者 应 该 把 export 命令 放 入 shell 启 动 文件 ， 或 者 启动 会 话 
时 指定 的 独立 配置 脚本 。 


不 要 纠结 于 这 里 讲 到 的 某 些 细节 ， 后 续 内 容 还 会 介绍 Hadoop 的 安装 和 使 
用 。 





2.4 ”实践 环 市 : 安 逆 SSH 
执行 下 列 步骤 以 安装 SSH。 
1. 通过 下 列 命令 创建 一 对 OpenSSL 密 钥 对 : 


$ ssh-keygen 

Generating public/private rsa key pair. 

Enter file in which to save the key (/home/hadoop/.ssh/id rsa): 
Created directory '/home/hadoop/.ssh'. 

Enter passphrase (empty for no passphrase): 

Enter same passphrase again: 


Your identification has been saved in /home/hadoop/.ssh/id rsa. 
Your public key has been saved in /home/hadoop/.ssh/id rsa.pub. 








2. 使 用 下 列 命令 将 新 生成 的 公 钥 复制 至 已 授权 秘 钥 列表 : 


$ cp .ssh/id rsa.pub .Ssh/authorized keys 





3. 连接 本 地 主机 。 


$ ssh localhost 

The authenticity of host 'localhost (127.0.060.1)' can't be established. 
RSA key fingerprint is b6:6c:bd:57:32:b6:66:7c:33:7b:62:92:61:fd:ca:2a 
Are you sure you want to continue connecting (yes/no)? yes 

Warning: Permanently added 'localhost' (RSA) to the list of known host 





4. 确认 无 密码 的 SSH 可 以 运行 。 





$ ssh localhost 
$ ssh localhost 


原理 分 析 


由 于 Hadoop 需 要 在 一 台 或 多 台 计 算 机 上 的 多 个 进程 之 间 通 信 ， 我 们 需要 
确保 正在 使 用 Hadoop 的 用 户 不 输入 密码 即 可 连接 到 所 需 的 每 台 主 机 。 通 
过 创建 有 一 个 空 口令 Secure Shell (SSH) 的 密 钥 对 来 实现 这 一 点 。 我 
们 使 用 ssh-keygen 命令 启动 这 一 进程 ， 并 接受 所 提供 的 缺 省 设置 。 


一 旦 创建 了 密 钥 对 ， 需 要 将 新 生成 的 公 钥 添加 到 可 信 密 钥 的 存储 列表 。 
这 就 意味 着 ， 当 试图 连接 这 台 机 器 时 ， 公 钥 会 被 信任 。 然 后 ， 使 用 ssh 
命令 连接 本 地 机 器 ， 应 该 会 获得 一 个 如 上 述 显 示 的 关于 信任 主机 证 书 的 
和 警告。 确认 后 ， 我 们 应 该 能 够 连接 而 不 再 需要 密码 或 出 现 提 示 。 


提示 : 请 注意 ， 稍 后 使 用 一 个 完全 分 布 式 模式 的 集群 时 ， 我 们 需要 
确保 集群 中 每 台 主 机 的 Hadoop 用 户 账 号 具有 相同 的 密 钥 设置 。 




















2.4.1 配置 并 运行 Hadoop 


到 目前 为 止 ， 这 都 非常 简单 ， 只 涉及 下 载 和 系统 管理 。 现 在 ， 终 于 可 以 
和 Hadoop 打 交道 了 。 我 们 将 运行 一 个 简单 的 例子 ， 以 表明 Hadoop 正 在 
运行 。 接 下 来 的 步骤 需要 执行 额外 的 配置 和 设置 ， 但 是 也 说 明 到 目前 为 
止 ， 所 有 一 切 安 装 和 设置 都 是 正确 的 。 





2.5 ”实践 环节 : 使 用 Hadoop 计 算 圆周 率 


现在 ， 我 们 使 用 一 个 简单 的 Hadoop 示 例 程序 计算 圆周 率 的 值 。 眼 下 ， 这 
主要 是 为 了 验证 安装 ， 同 时 展示 MapReduce 作 业 如 此 之 快 的 执行 速度 。 
假设 HADOOP_HOME/bin 目录 已 存在 于 用 户 的 PATH 变量 ， 请 键入 以 下 命 


$ Hadoop jar hadoop/hadoop-examples-1.6.4.jar 


Number of Ma 
Samples per 
Wrote input 
Wrote input 
Wrote input 
Wrote input 


ps = 4 
Map = 1660 
for Map #0 
for Map #1 
for Map #2 
for Map #3 





pi 4 1666 


Starting Job 
12/16/26 22:56: 
12/16/26 22:56: 
12/16/26 22:56: 
1ocal_6661 


11 
11 
12 


INFO 
INFO 
INFO 


jvm.JvmMetrics: Initializing JVM Metrics with proces 
mapred.FileInputFormat: Total input paths to process 
mapred.JobClient: Running job: job_ 


12/16/26 22: 
12/16/26 22: 


mapred.FileInputFormat: Total input paths to process 
mapred.MapTask: numReduceTasks: 1 


JobClient: 
JobClient: 


14 
14 


INFO 
INFO 


12/16/26 22: 
12/16/26 22: 
local 606061 

12/16/26 22: 
12/16/26 22: 


56: 
56: 


map 166% reduce 166% 
Job complete: job_ 


mapred. 
mapred. 


JobClient: 
JobClient: 


14 
14 


Counters: 13 
FileSsystemCounters 


56: 
56: 


INFO mapred. 
INFO mapred. 


Job Finished in 2.964 seconds 
Estimated value of Pi is 3.1460666666666666666660 
$ 





原理 分 析 








上 述 例 程 的 输出 包含 了 大 量 信 息 ， 当 在 屏幕 上 获得 完整 的 输出 时 甚 全 会 
有 更 多 的 信息 。 现 在 ， 让 我 们 一 步 一 步 进 行 分 析 ， 无 需 为 Hadoop 的 状态 
输出 感到 困惑 ， 因 为 后 续 内 容 会 对 它 进行 专门 介绍 。 首 先 要 弄 清 楚 的 古 





一 些 术语 : 每 个 Hadoop 程 序 就 是 一 个 作业 ， 它 会 创建 多 个 任务 来 完成 目 
己 的 工作 。 


查看 输出 ， 我 们 把 它 宽 泛 地 概括 为 3 个 部 分 : 
。 局 动作 业 
。 作业 的 执行 状态 
。 作业 结果 的 输出 


在 上 述 例子 中 可 以 看 到 ， 这 个 作业 创建 了 4 个 任务 来 计算 圆周 率 ， 整 个 
作业 的 结果 将 是 这 些 子 结果 的 组 合 。 这 种 模式 听 起 来 应 该 很 熟悉 ， 与 第 
1 章 中 讲 到 的 类 似 。 这 种 模型 将 一 个 较 大 的 作业 拆 分 成 较 小 的 任务 来 执 
行 ， 然 后 将 结果 整合 起 来 。 


随 着 作业 的 执行 ， 出 现 了 大 部 分 输出 ， 它 们 提供 了 显示 作业 进度 的 状态 
消息 。 工 作成 功 完 成 后 ， 作 业 将 打印 出 一 些 计数 器 和 其 他 数据 。 事 实 

上 ， 这 个 例子 的 不 同 寻 常 之 处 在 于 ， 很 少见 到 MapReduce 作 业 的 结果 直 
接 显示 在 控制 台 上 。 这 并 不 是 Hadoop 的 一 个 局 限 性 ， 而 是 由 于 ， 处 理 大 
数据 集 的 作业 通常 会 产生 相当 多 的 输出 数据 ， 并 不 适合 简单 地 在 屏幕 上 











显示 。 
恭喜 你 ， 成 功 地 完成 了 第 一 个 MapReduce 作 业 ! 
3 种 模式 


我 们 淘 望 在 Hadoop 上 运行 作业 ， 却 回避 了 一 个 重要 的 问题 ， 应 该 在 何 种 
模式 下 运行 Hadoop? Hadoop 有 3 种 运行 模式 ， 各 种 模式 下 ，Hadoop 组 件 
的 运行 场所 有 所 不 同 。 回 想 一 下 ，HDFS 包 括 一 个 NameNode， 它 充当 着 
集群 协调 者 的 角色 ， 是 一 个 或 多 个 用 于 存储 数据 的 DataNode 的 管理 者 。 
对 于 MapReduce 而 言 ，JobTracker 是 集群 的 主 节点 ， 它 负责 协调 多 个 
TaskTracker 进 程 执行 的 工作 。Hadoop 以 如 下 3 种 模式 部 署 上 述 组 件 。 


。 本 地 独立 模式 : 像 前 面 计 算 圆 周 率 的 例子 一 样 ， 如 果 不 进行 任何 
配置 的 话 ， 这 是 Hadoop 的 默认 工作 模式 。 在 这 种 模式 下 ，Hadoop 
的 所 有 组 件 ， 如 NameNode、DataNode、JobTracker 和 TaskTracker， 
都 运行 在 同一 个 Java 进 程 中 。 


。 伪 分 布 式 模式 : 在 这 种 模式 下 ，Hadoop 的 各 个 组 件 都 拥有 一 个 单 
独 的 Java 虚 拟 机 ， 它 们 之 间 通 过 网 络 套 接 字 通信 。 这 种 模式 在 一 台 
主机 上 有 效 地 产生 了 一 个 具有 完整 功能 的 微型 集群 。 


。 完全 分 布 式 模式 : 在 这 种 模式 下 ，Hadoop 分 布 在 多 台 主 机 上 ， 其 
中 一 些 是 通用 的 工作 机 ， 其 余 的 是 组 件 的 专用 主机 ， 比 如 
NameNode 和 JobTracker。 


每 种 模式 都 有 其 优点 和 人 缺点。 完全 分 布 式 模式 显然 是 唯一 一 种 可 以 将 
Hadoop 扩 展 到 机 器 集群 的 方式 ， 但 它 需 要 更 多 的 配置 工作 ， 更 不 用 提 所 
需要 的 机 器 集群 。 本 地 或 独立 模式 的 设置 工作 是 最 简单 的 ， 但 它 与 用 户 
的 交互 方式 不 同 于 全 分 布 式 模式 的 交互 方式 。 一 般 情 况 下 ， 本 书 更 吝 欢 
使 用 伪 分 布 式 模式 ， 即 使 程序 只 需 在 一 台 主 机 上 运行 。 这 是 因为 ， 
OE Re NI te Nee 
日 同 的 。 























2.6 ”实践 环节 ; 配置 伪 分 布 式 模式 


得 看 Hadoop 安 装 包 中 的 conf 目录 。 那 里 有 很 多 配置 文件 ， 但 只 需 对 其 
中 3 个 文件 进行 修改 : core-site.xml 、hdfs-site.xml 和 mapred- 
site.xml. 





1. 如 下 所 示 ， 修 改 core-site.xml 文件 : 


<?xml version="1.0"?> 

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<!-- Put site-specific property overrides in this file. --> 
<configuration> 

<property> 

<name>fs.default.name</name> 


<value>hdfs://localhost:96060</value> 
</property> 
</configuration> 





2. 如 下 所 示 ， 修 改 hdfs-site.xml 文件 : 
<?xm] version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 


<!-- Put site-specific property overrides in this file. --> 


<configuration> 


<property> 
<name>dfs.replication</name> 
<value>1</value> 

</property> 

</configuration> 





3. 如 下 所 示 ， 修 改 mapred-site.xml 文件 : 


<?xml] version="1.0"?> 


<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 


<!-- Put site-specific property overrides in this file. --> 


<configuration> 

<property> 
<name>mapred.job.tracker</name> 
<value>localhost:9601</value> 
</property> 

</configuration> 





原理 分 析 


首先 ， 请 注意 这 些 配 置 文件 的 通用 格式 。 显 然 ， 它 们 都 是 XML 文 件 ， 
单个 配置 元 素 包 含有 多 个 属性 说 明 。 


属性 说 明 总 是 包含 名 称 和 值 元 系 ， 可 能 会 有 可 选 注释 ， 这 并 没有 在 前 面 
的 代码 中 展示 。 


在 这 里 ， 我 们 需要 设置 3 个 配置 变量 。 


。 变量 dfs.default.name 保存 了 NameNode 的 位 置 ，HDFS 和 
MapReduce 组 件 都 需要 它 。 这 就 是 它 出 现在 core-site.xml 文件 
中 而 不 是 hdfs-site.xml 文件 中 的 原因 。 


。 变 量 dfs.replication 指定 了 每 个 HDFS 数 据 块 的 复制 次 数 。 回 想 
一 下 第 1 章 中 讲述 的 内 容 ，HDFS 确 保 每 个 数据 块 被 复制 到 多 台 不 同 
主机 (通常 是 3 台 〉 ， 以 此 方式 处 理 故 障 。 由 于 我 们 只 有 一 人 台 主 机 
和 一 个 伪 分 布 式 模 式 的 DataNode， 将 此 值 修改 为 1 。 

如 同 dfs .default.name 保存 了 NameNode 的 位 置 ， 变 量 
mapred.job.tracker 保存 了 JobTracker 的 位 置 。 因 为 只 有 
MapReduce 组 件 需 要 知道 这 个 位 置 ， 所 以 它 出 现在 mapred- 
site.xml 文件 中 。 


提示 : 当然 ， 读 者 可 以 随意 修改 要 使 用 的 端口 号 ， 但 9000 和 9001 是 

















Hadoop 的 常用 默认 端口 。 
NameNode 和 JobTracker 的 网 络 地 址 指定 了 实际 的 系统 请 求 应 当 到 达 的 端 
口 。 这 些 位 置 都 不 面 同 用 户 ， 所 以 不 用 担心 您 的 Web 浏 览 右 会 指 同 他 
们 。 不 久 ， 我 们 将 会 讲解 Web 界 面 。 
配置 根 目 录 并 格式 化 文件 系统 


假如 我 们 选择 了 伪 分 布 式 或 完全 分 布 式 模式 ， 在 月 动 Hadoop 集 群 之 前 需 
要 执行 两 个 步 又。 


1. 设置 存储 Hadoop 文 件 的 根 目 录 。 
2. 格式 化 HDFS 文 件 系 统 。 


提示 : 准确 地 讲 ， 我 们 不 需要 修改 默认 目录 ， 但 是 稍 后 会 讲 到 ， 了 基 
好 尽早 考虑 这 一 扩 。 








2.7 ”实践 环节 : 修改 HDFS 的 根 目录 


首先 来 设置 HDFS 的 根 目 录 ， 它 指定 了 HDFS 在 本 地 文件 系统 保存 其 全 部 
数据 的 位 置 。 执 行 以 下 步骤 。 


1. 创建 Hadoop 保 存 数 据 的 目录 : 


$ mkdir /var/lib/hadoop 


2. 人 确保 任何 用 户 都 可 在 此 目录 写 入 数据 : 


$ chmod 777 /var/lib/hadoop 


3. 再 次 修改 core-site.xml 文 件 ， 添 加 下 列 属性 : 








<property> 
<name>hadoop.tmp.dir</name> 
<value>/var/l1ib/hadoop</value> 
</property> 





原理 分 析 


由 于 我 们 将 在 Hadoop 中 存储 数据 ， 同 时 所 有 组 件 都 运行 在 本 地 主机 ， 这 
些 数 据 都 需要 存储 在 本 地 文件 系统 的 茶 个 地 方 。 不 管 选择 了 何 种 模式 ， 
Hadoop 默 认 使 用 hadoop.tmp.dir 属性 作为 根 目录 ， 所 有 文件 和 数据 都 
将 写 入 该 目录 。 


例如 ，MapReduce 使 用 根 目录 下 的 /mapred 目录 ，HDEFS 使 用 /dfs 目 
录 。 人 危险 的 是 ，hadoop.tmp.dir 的 默认 值 为 /tmp ， 一 些 版 本 的 Linux 
系统 会 在 每 次 重新 局 动 时 删除 /tmp 的 内 容 。 所 以 ， 明 确 规 定数 据 留存 





的 位 置 更 为 安全 。 


2.8 ”实践 环节 : 格式 化 NameNode 


无 论 是 在 伪 分 布 式 模式 还 是 完全 分 布 式 模 式 下 ， 在 首次 司 动 Hadoop 之 
前 ， 都 需要 格式 化 Hadoop 将 要 用 到 的 HDFS 文 件 系 统 。 输 入 如 下 命令 : 





hadoop namenode -format 





该 命令 的 输出 应 如 下 所 示 : 


$ hadoop namenode -format 

12/16/26 22:45:25 INFO namenode.NameNode: STARTUP_MSG : 

术 书 米 米 米 求 囊 灿 几米 党 玉米 水 水 籼米 米 玉 玉米 党 省 米 玉 末末 米 水 洲 玉 水杯 玉米 党 党 米 米 玉林 米 玉 可 沙洲 水 玉米 类 玉米 米 洒 玉米 来 末 米 水 
STARTUP_MSG: Starting NameNode 

STARTUP_MSG : host = Vm193/16.6.0.193 

STARTUP_MSG : args [-format] 


12/16/26 :45 : INFO namenode .FSNamesystem: fsOwner=hadoop,hadoop 
12/16/26 :45 : INFO namenode.FSNamesystem: supergroup=supergroup 
12/16/26 :45 : INFO namenode .FSNamesystem: isPermissionEnabled=true 


12/16/26 :45 : INFO common.Storage: Image file of size 96 saved in 6 sec 
12/16/26 :45 : INFO common.Storage: Storage directory /var/lib/hadoop- h 
12/16/26 :45 : INFO namenode .NameNode: SHUTDOWN MSG: 

A std ed et ee ee 

SHUTDOWN_MSG: Shutting down NameNode at Vvm193/16.6.9.193 

$ 





原理 分 析 


这 并 不 是 一 个 令 人 非常 兴奋 的 输出 ， 因 为 这 个 步骤 只 是 使 我 们 今后 能 够 
使 用 HDFS。 然 而 ， 它 有 助 于 我 们 对 HDFS 的 理解 ， 它 只 是 一 个 文件 系 
统 ， 没 有 什么 神秘 的 。 就 像 使 用 任何 操作 系统 的 任何 新 的 存储 设备 之 
前 ， 我 们 都 需要 对 其 进行 格式 化 操作 。HDFS 同 样 如 此 ， 最 初 有 一 个 默 
0 0 





提示 : 每 次 都 需要 执行 格式 化 ! 


假如 你 的 Hadoop 和 我 的 类 似 ， 在 重新 安装 Hadoop 的 时 候 ， 经 常会 犯 
一 系列 的 简单 错误 。 因 为 很 容易 在 记 格 式 化 NameNode， 于 是 就 会 在 
第 一 次 尝试 使 用 Hadoop 的 时 候 收 到 一 系列 故障 信息 。 


但 只 执行 一 次 格式 化 ! 


格式 化 NameNode 的 命令 可 以 执行 多 次 ,但 是 这 样 会 使 所 有 的 现 有 文 
件 系 统 数据 受 损 。 只 有 在 Hadoop 集 群 关闭 和 你 想 进行 格式 化 的 情况 
下 ， 才 能 执行 格式 化 。 但 在 其 他 大 多 数 情况 下 ， 格 式 化 操作 会 快速 、 
不 可 恢复 地 删除 HDFS 上 的 所 有 数据 。 它 在 大 型 集群 上 的 执行 时 间 更 
长 。 所 以 一 定 要 小 心 ! 


启动 并 使 用 Hadoop 
在 完成 万 有 安装 及 配置 步骤 之 后 ， 现在 启动 集群 并 用 它 实际 做 一 些 事 
育 。 


4 








2.9 ”实践 环节 : 启动 Hadoop 


在 本 地 模式 中 ， 所 有 Hadoop 组 件 只 人 证 周期 运行 ， 伪 分 布 式 或 
者 全 分 布 式 模式 的 Hadoop 集 群 则 与 此 不 同 ， 其 组 件 以 长 期 运行 的 进程 的 
形式 存在 。 在 使 用 HDFS 或 MapReduce 之 前 ， 旬 网 需 组 件 。 
键入 以 下 命令 ， 输 出 应 该 如 下 所 示 〈 其 中 命令 以 $ 为 前 级 ) 


1. 输入 第 一 个 命令 








$ start-dfs.sh 

starting namenode, logging to /home/hadoop/hadoop/bin/../logs/ 
hadoop-hadoop-namenode-vm193 .out 

localhost: starting datanode, logging to /home/hadoop/hadoop/ 
bin/../logs/hadoop-hadoop-datanode-vm193.out 

localhost: starting secondarynamenode, logging to /home/hadoop/ 
hadoop/bin/../logs/hadoop-hadoop-secondarynamenode-vm193.out 


9556 DataNode 

9687 Jps 

9638 SecondaryNameNode 
9471 NameNode 





3; 答 估 第 三 个 命令 ; 


$ hadoop dfs -1s / 

Found 2 items 

drwxr-xr-x -hadoop supergroup 0 2012-160-26 23:63 /tmp 
drwxr-xr-x -hadoop supergroup 0 2012-16-26 23:66 /user 





$ start-mapred.sh 
starting jobtracker, logging to /home/hadoop/hadoop/bin/../logs/hadoop 
localhost: starting tasktracker, logging to /home/hadoop/hadoop/bin/.. 


DataNode 
TaskTracker 
SecondaryNameNode 
NameNode 
JobTracker 

Jps 





原理 分 析 


顾名思义 ，start-dfs.sh 命令 启动 HDFS 的 必要 组 件 。 这 些 组 件 包括 
管理 文件 系统 的 NameNode 和 一 个 保存 数据 的 DataNode。 
SecondaryNameNode 是 一 个 可 用 性 辅助 程序 ， 我 们 将 在 后 面 的 章节 讨论 
区 


启动 这 些 组 件 后 ， 我 们 使 用 JDK 的 jps 工具 查看 哪个 Java 进 程 正在 运 
行 。 从 输出 来 看 ， 系 统 运转 正常 ， 我 们 随后 使 用 Hadoop 的 dfs 工具 列 出 
HDFS 文 件 系统 的 根 目 录 。 


在 此 之 后 ， 我 们 使 用 start-mapred.sh 启动 MapReduce 的 组 件 ， 这 次 
会 启动 JobTracker 和 一 个 TaskTracker， 然 后 再 次 使 用 jps 来 验证 结果 。 


在 稍 后 阶段 ， 我 们 还 将 使 用 一 个 组 合 的 start-all.sh 文件。 但 在 初 
期 人 动 是 非常 有 用 的 ， 这 样 更 容易 检验 集群 的 配置 是 否 
正确 。 








2.10 ”实践 环节 : 使 用 HDFS 


如 前 面 例 子 所 示 ，HDFS 提 供 了 一 套 看 似 熟悉 的 接口 ， 用 户 可 以 使 用 类 
et 
= 


物 入 人 下列 信心 


$ hadoop -mkdir /user 

$ hadoop -mkdir /user/hadoop 

$ hadoop fs -ls /user 

Found 1 items 

drwxr-xr-x - hadoop supergroup 0 2012-160-26 23:69 /user/Hadoop 
$ echo "This is a test." >> test.txt 
$ cat test.txt 

This is a test. 

$ hadoop dfs -copyFromLocal test.txt 
$ hadoop dfs -ls 

Found 1 items 


-rw-r--r-- 1 hadoop supergroup 16 2612-16-26 23:19/user/hadoop/ 


test.txt 

$ hadoop dfs -cat test.txt 

This is a test. 

$ rm test.txt 

$ hadoop dfs -cat test.txt 

This is a test. 

$ hadoop fs -copyToLocal test.txt 
$ cat test.txt 

This is a test. 





原理 分 析 


这 个 例子 展示 了 Hadoop 实 用 工具 中 的 fs 子 命令 的 用 法 。 请 注意 ，dfs 
和 fs 命令 是 相同 的 。 像 大 多 数 文件 系统 一 样 ，Hadoop 为 每 个 用 户 保留 
一 个 主 目录 。 这 些 主 目录 都 位 于 HDFS 上 的 /user 路 径 下 。 在 继续 深入 
之 前 ， 假 如 主 目录 不 存在 的 话 ， 我 们 需要 自己 创建 主 目录 。 


然后 ， 在 本 地 文件 系统 创建 一 个 简单 的 文本 文件 ， 并 使 





用 copyFromLocal 命令 将 其 复制 到 HDFS， 并 通过 -1s 和 -cat 实用 程 
序 来 检查 文件 是 否 了 存在 并 查看 其 内 容 。 在 Unix 系 统 中 ， 未 带 参数 的 -1s 
命令 指定 是 用 户主 目录 ， 相 对 路 径 〈 不 以 / 开头 ) 指 的 也 是 那个 位 置 ， 
因此 ， 不 难看 出 ， 用 户主 目录 的 别名 是 . 。 


然后 ， 从 本 地 文件 系统 删除 文件 ， 使 用 -copyToLocal 命令 从 HDFS 将 
其 复制 回 到 本 地 文件 系统 ， 用 本 地 cat 工具 检查 其 内 容 。 


提示 :” 如 上 述 例子 所 示 ， 混 合 使 用 HDFS 和 本 地 文件 系统 命令 十 分 强 
大 ， 很 容易 在 HDFS 上 执行 原本 为 本 地 文件 系统 设计 的 命令 ， 反 之 刘 
然 。 所 以 ， 要 多 加 小 心 ， 尤 其 是 在 删除 文件 的 时 候 。 


二 些 HDFS 的 操作 命令 ， 试 着 用 hadoop fs -help 来 获取 详细 列 














港 六 


2.11 实践 环节 : MapReduce 的 经 典 入 门 程序 一 一 
字数 统计 


随 着 时 间 的 推移 ， 许 多 应 用 程序 都 有 一 个 经 典 例子 ， 它 是 所 有 初学 者 指 
南都 要 用 到 的 。 对 Hadoop 而 言 ， 这 就 是 字数 统计 程序 WordCoun 二 
人 它 用 来 统计 一 个 输入 文本 文件 中 每 个 词 的 出 现 频 


1. 首先 执行 下 列 命令 : 











$ hadoop dfs -mkdir data 

$ hadoop dfs -cp test.txt data 

$ hadoop dfs -ls data 

Found 1 items 

-rw-r--r-- 1 hadoop supergroup 16 2012-10-26 23:20 / 


User/hadoop/data/test .txt 





2. 现在 执行 这 些 命令 : 


$ Hadoop Hadoop/hadoop-examples-1.60.4.jar wordcount data out 
12/16/26 23:22:49 INFO input.FileInputFormat: Total input paths to pro 
12/16/26 23:22:56 INFO mapred.JobClient: Running job: 

Job 261216262315_ 6662 

12/16/26 23:22:51 INFO mapred.JobClient: map 6% reduce 6% 
12/16/26 23:23:63 INFO mapred.JobClient: map 166% reduce 6% 
12/16/26 23:23:15 INFO mapred.JobClient: map 166% reduce 166% 
12/16/26 23:23:17 INFO mapred.JobClient: Job complete: 

Job 261216262315_ 6662 

12/16/26 23:23:17 INFO mapred.JobClient: Counters: 17 

12/16/26 23:23:17 INFO mapred.JobClient: Job Counters 

12/16/26 23:23:17 INFO mapred.JobClient: Launched reduce 

tasks=1 

12/16/26 23:23:17 INFO mapred.JobClient: Launched map tasks=1 
12/16/26 23:23:17 INFO mapred.JobClient: Data-local map 

tasks=1 

12/16/26 23:23:17 INFO mapred.JobClient: FileSystemCounters 
12/16/26 23:23:17 INFO mapred.JobClient: FILE_ BYTES_ READ=46 
12/16/26 23:23:17 INFO mapred.JobClient: HDFS_BYTES_READ=16 
12/16/26 23:23:17 INFO mapred.JobClient: FILE _ BYTES WRITTEN=124 





12/16/26 23:23:17 INFO mapred.JobClient: HDFS_BYTES WRITTEN=24 
12/16/26 23:23:17 INFO mapred.JobClient: Map-Reduce Framework 
12/16/26 23:23:17 INFO mapred.JobClient: Reduce input groups=4 
12/16/26 23:23:17 INFO mapred.JobClient: Combine output 
records=4 

12/16/26 23:23:17 INFO mapred.JobClient: Map input records=1 
12/16/26 23:23:17 INFO mapred.JobClient: Reduce shuffle 
bytes=46 

12/16/26 23:23:17 INFO mapred.JobClient: Reduce output 
records=4 

12/16/26 23:23:17 INFO mapred.JobClient: Spilled Records=8 
12/16/26 23:23:17 INFO mapred.JobClient: Map output bytes=32 
12/16/26 23:23:17 INFO mapred.JobClient: Combine input 
records=4 

12/16/26 23:23:17 INFO mapred.JobClient: Map output records=4 
12/16/26 23:23:17 INFO mapred.JobClient: Reduce input 


records=4 


3. 执行 以 下 命 


$ hadoop fs -ls out 
Found 2 items 





drwxr-xr-x - hadoop supergroup 0 2012-16-26 23:22 / 
user/hadoop/out/_logs 
-rw-r--r-- 1 hadoop supergroup 


user/hadoop/out/part-r-6660060 


24 2612-16-26 23:23 / 





4. 现在 执行 这 个 命令 : 


$ hadoop fs -cat out/part-6-66666 
This 

a 

is 


test. 





原理 分 析 





刚才 ， 我 们 做 了 如 下 3 件 事情 : 

。 将 之 前 创建 的 文本 文件 移 到 HDFS 的 一 个 新 路 径 下 ; 

。 以 上 述 新 路 径 和 一 个 不 存在 的 输出 路 径 为 参数 ， 运 行 WordCount 例 
程 ; 


。 使 用 fs 程序 检查 MapReduce 作 业 的 输出 。 


如 前 所 述 ， 伪 分 布 式 模 式 有 着 更 多 的 Java 进 程 ， 那 么 字数 统计 作业 的 输 
出 明显 短 于 独立 模式 下 计算 圆周 率 的 作业 ， 这 点 看 似 奇 怪 。 原 因 在 于 ， 
本 地 独立 模式 将 每 个 单独 任务 执行 的 信息 都 打印 在 屏幕 上 ， 而 在 其 他 模 
式 下 ， 这 些 信 息 只 被 写 入 运行 主机 的 日 志文 件 中 。 


输出 路 径 由 Hadoop 上 自己 创建 ， 实 际 的 结果 文件 遵守 part-nnnn 的 约定 。 虽 
然 由 于 我 们 设置 的 原因 ， 仅 有 一 个 结果 文件 。 我 们 使 用 fs -cat 命令 来 
检查 文件 ， 结 果 和 预期 一 致 。 


提示 : 如 果 指 定 一 个 已 有 目录 作为 Hadoop 作 业 的 输出 路 径 ， 作 业 将 
无 法 运行 ， 并 会 抛 出 异常 抗议 一 个 已 经 存在 的 目录 。 如 果 想 让 Hadoop 
将 输出 存储 到 一 个 目录 ， 它 必须 是 不 存在 的 目录 。 把 这 个 特点 当做 

Hadoop 的 一 种 安全 机 制 ， 它 可 以 防止 Hadoop 重 写 有 用 的 文件 以 及 用 

户 总 是 忘记 弄 清 的 事 。 后 面 将 会 讲 到 ， 如 果 用 户 有 足够 信心 ， 也 可 
以 敌 盖 这 种 方式 。 


圆周 率 和 字数 统计 程序 只 是 Hadoop 附 融 例 子 的 一 小 部 分 。 下 面 是 如 何 获 
得 全 部 例子 列表 的 方法 。 看 看 你 能 人 否 理解 其 中 部 分 内 容 。 


一 展 身 手 : 在 更 大 规模 的 文本 上 进行 字数 统计 



































运行 如 此 复杂 的 Hadoop 框 架 ， 利 用 5 个 分 立 的 Java 进 程 来 统计 一 个 单行 
文本 文件 的 字数 ， 并 不 会 给 人 留 下 非常 深刻 的 印象 。Hadoop 令 人 震惊 的 
力量 源 自 一 个 事实 ， 即 我 们 可 以 使 用 完全 相同 的 程序 对 一 个 较 大 的 文件 
进行 字数 统计 ， 甚 至 是 分 布 在 多 个 节点 组 成 的 Hadoop 集 群 上 的 庞大 语 料 
库 文本 。 处 理 这 种 任务 时 ， 执 行 的 命令 和 刚才 完全 相同 : 运行 字数 统计 
程序 并 指定 源 数据 和 输出 数据 目录 的 位 置 。 











找 一 个 大 型 在 线 文 本 文件 ， 位 于 http://www.gutenberg.org 的 Gutenberg 项 
目 就 是 一 个 很 好 的 案例 ， 把 它 找 贝 到 HDFS 并 执行 WordCount 例 程 来 对 
它 进行 字数 统计 。 输 出 可 能 会 与 您 的 预期 有 所 不 同 ， 因 为 在 一 大 有 篡 文字 
中 ， 脏 数据 、 标 点 符号 和 格式 问题 都 需要 解决 。 想 想 应 当 如 何 改 进 
WordCount， 我 们 将 在 下 一 章 研 究 如 何 将 其 扩展 到 一 个 更 复杂 的 处 理 


链 。 





过 浏览 器 查看 Hadoop 活 动 





截至 目前 ， 我 们 一 直 依靠 命令 行 工具 和 直接 的 命令 输出 来 观察 系统 的 运 
行 状况 。Hadoop 提 供 了 两 个 你 应 当 熟 练 使 用 的 网 络 接口 : 一 个 用 于 
HDFS， 另 一 个 用 于 MapReduce。 两 者 对 仿 分 布 式 Hadoop 和 全 分 布 式 
Hadoop 意 义 重 大 ， 尤 其 是 对 全 分 布 式 Hadoop 至 天 重要 。 





HDFS 网 络 用 户 接 口 


将 浏览 器 指向 运行 着 Hadoop 主 机 的 50030 端 口 。 默 认 情 况 下 ，Web 界 面 


对 于 本 地 主机 和 具有 网 络 访问 权限 的 任何 其 他 机 器 都 是 可 用 的 。 下 面 是 
二 个 茂生 未 他 
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Cluster Summary 


Safe mode Is ON, The ratio of reported blocks 0.0000 hos not reoached the threshoki 0.9990, Safo modo wi be turnod off 
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这 个 接口 包含 了 很 多 信息 ， 但 我 们 可 以 通过 一 些 关 键 数据 直观 地 获悉 集 


群 的 节点 数 、 文 件 系统 的 大 小 、 已 用 空间 以 及 用 于 获取 更 多 信息 甚至 浏 
览 整个 文件 系统 的 链接 。 


读者 需要 花 些 时 间 来 慢 慢 熟悉 这 个 接口 ， 这 是 很 有 必要 的 。 在 一 个 多 节 
点 的 集群 中 ， 活 跃 节点 和 死亡 节点 的 信息 ， 以 及 这 些 节 点 的 详细 的 历史 
状态 信息 对 于 调试 集群 故障 起 着 关键 作用 。 

。 MapReduce 的 网 络 用 户 接口 


JobTracker 网 络 用 户 接 口 的 默认 端口 是 50070， 前 面 讲 的 访问 规则 同样 适 
用 于 此 。 下 面 是 一 个 截图 示例 : 











wr) xT D,* 





Duics Links 





Cluster Summary (Heap Size js 15.31 MB/966.69 MB) 


Maps Reduces Total Submissions Nodes Map Tasx Capacgy Reduce Task Capacity Avg, Tasks/iNode Blincklisted Nodes 
ov o | 1 1 2 4400 


scheduling Information 
Queue Name Scheduling Information | 


dofaut NA 








Finter (Jobid, Priority, User Nome)| 
Examp Veer emah 3200 will Hoe by ‘mah only In the voor $01d and 3200 n sl tnds | 
本 » 


Due 





or 2 | » 


它 比 HDFS 接 口 更 为 复杂 ! 除了 类 似 的 活跃 市 皮 、 死 亡 节 反 数 量 外 ， 它 
还 提供 了 启动 以 来 已 执行 的 作业 数 ， 以 及 每 个 作业 拆 分 的 任务 数 。 

正在 执行 的 作业 和 已 完成 作业 列表 通常 能 够 提供 更 多 信息 。 对 每 个 作业 
来 讲 ， 我 们 可 以 访问 每 个 任务 在 每 个 节点 上 的 运行 情况 ， 可 以 访问 包含 
更 详细 信息 的 日 志 。 现 在 ， 我 们 将 揭示 一 个 任何 分 布 式 系统 都 存在 的 令 
人 非常 头疼 的 问题 : 调试 。 在 分 布 式 系统 上 进行 调试 真 的 是 非常 困难 。 


假设 你 试图 使 用 100 台 机 器 组 成 的 集群 处 理 巨 大 的 数据 集 ， 其 中 每 台 主 





机 都 要 执行 数 百 个 map 和 reduce 人 任务。 如 果 作 业 开 始 绥 慢 地 运行 或 出 现 
了 明显 的 失败 ， 问 题 出 在 什么 地 方 通常 并 不 明显 。 碍 看 MapReduce 的 网 
页 用 户 接 口 很 可 能 是 诊断 问题 的 第 一 站 ， 因 为 该 接口 提供 的 丰富 信息 是 
调查 正在 运行 的 作业 和 已 完成 作业 的 入 手 点 。 








2.12 ”使 用 弹性 MapReduce 


现在 ， 我 们 转 去 云端 Hadoop 由 Amazon Web Services 提 供 的 弹性 
MapReduce 服 务 。 有 多 种 访问 EMR 的 方法 ， 但 现在 ， 我 们 会 专注 于 亚 马 
还 提供 的 Web 控 制 台 。Web 控 制 台 使 用 完全 点 击 式 的 Hadoop 操 作 方 法 ， 
与 之 前 使 用 命令 行 的 操作 方式 形成 了 鲜明 对 比 。 





创建 Amazon Web Services 账 号 


在 使 用 弹性 MapReduce 之 前 ， 需 要 创建 一 个 Amazon Web Services 账 号 并 
用 它 注 册 必 需 的 服务 。 


1. 创建 AWS 账 号 


Amazon 通 用 账号 已 经 集成 了 AWS 服 务 ， 也 就 是 说 ， 如 果 读 者 已 经 有 了 
任意 一 个 Amazon 零 售 网 站 的 账号 ， 用 它 即 可 访问 AWS 服 务 。 


需要 注意 的 是 ，AWS 服 务 是 付费 服务 ， 用 户 需 要 将 有 效 的 信用 卡 与 其 
Amazon 账 号 绑 定 ， 费 用 将 由 此 信用 卡 文 付 。 


如 果 读 者 需要 一 个 新 的 Amazon 账 号 ,访问 http://aws.amazon.com ， 选 
择 “create a new AWS account”， 并 按照 提示 操作 。Amazon 已 经 增加 了 一 
个 免费 服务 层 ， 所 以 读者 可 能 发 现 ， 在 初期 的 测试 和 探索 阶段 ， 许 多 活 
动 都 是 在 非 付 费 层 进行 的 。 免 费 层 的 范围 已 经 扩大 ， 所 以 要 确信 你 知道 
哪些 是 收费 的 以 及 哪些 是 免费 的 。 





2. 注册 必需 的 服务 





有 了 一 个 Amazon 账 号 之 后 ， 需 要 用 它 注册 要 用 到 的 AWS 服 务 ， 简单 存 
储 服务 (S3) 、 弹 性 计算 云 (EC2 ) 和 弹性 MapReduce (EMR) 。 单 纯 
注册 任何 AWS 服 务 都 是 不 收费 的 ， 这 个 过 程 只 是 让 您 的 账号 可 以 使 用 
这 些 服 务 。 


从 http://aws.amazon.com 页 面 的 链接 转 到 S3、EC2、EMR 页 面 ， 并 点 击 
每 个 页 面 上 的 “Sign up” 按 钮 ， 然 后 按照 提示 操作 。 


提示 : 注意 ! 这 些 付费 服务 花 掉 的 是 真 金 日 银 ! 


在 进一步 讨论 之 前 ， 重 要 的 是 要 明白 : 使 用 AWS 服 务 将 产生 费用 ， 
这 些 费 用 将 出 现在 您 的 Amazon 账 号 关联 的 信用 卡 。 大 部 分 费用 是 很 
少 的 ， 它 会 随 着 消耗 的 基础 设施 量 而 增加 。 在 S3， 存 储 10 GB 数据 的 
费用 是 存储 1 GB 数据 的 10 倍 以 上 ; 运行 20 个 EC2 实 例 的 费用 和 将 一 个 
实例 运行 20 次 的 费用 相当 。Amazon 有 一 个 层次 收费 模型 ， 所 以 实际 
成 本 趋 回 在 较 高 层次 产生 较 小 的 边际 增幅 。 但 是 ， 你 应 该 在 使 用 任何 
服务 之 前 ， 仔 细 阅 读 每 个 服务 的 定价 部 分 。 还 请 注意 ， 目 前 将 数据 从 
AWS 服 务 〈 如 EC2 和 S3) 移出 是 收费 的 ， 而 在 这 些 服务 之 间 转 移 数据 
是 不 收费 的 。 这 束 意 味 着 ， 认 真 设 计 AWS 的 使 用 ， 在 尽 可 能 多 的 数 
据 处 理 环 节 将 数据 保留 在 AWS， 往 往 是 最 具 成 本 效益 的 。 

















2.13 ”实践 环节 : 使 用 管理 控制 台 在 EMR 运 行 
WordCount 





让 我 们 直接 跳 到 EMR 的 例子 ， 它 使 用 了 一 些 自 带 的 示例 代码 。 执 行 下 列 


步骤 。 


1. 浏览 网 页 http://aws.amazon.com ， 访 问 Developers | AWS 
Management Console ， 然 后 点 击 Sign in to the AWS Console 按 
钮 。 默 认 视 图 应 该 与 下 图 类 似 。 否 则 ， 点 击 Amazon S3 。 
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2. 如 以 上 截图 所 示 ， 点 击 “Create bucket” 按 钮 并 输入 新 建 桶 的 名 称 
桶 的 名 称 对 所 有 AWS 用 户 都 是 全 局 唯一 的 ， 因 此 一 些 很 明显 的 名 
称 必然 是 不 可 用 的 ， 如 mybucket 或 s3test 。 


3. 点 击 Region 下 拉 采 单 并 选择 最 近 的 地 理 区 域 。 


Create a Bucket - Select a Bucket Name and Region Cancel X 

站 名 

L tory requyirements, For more iNformaton regarding DU 
nvenbons, please vist the Amazon 53 documentation 


Bucket Name: garrytluse 
Region: 


SetUpLogying> Create Cancel 


.点击 Elastic MapReduce 链接 并 点 击 Create a new Job Flow 按钮 。 
你 将 看 到 类 似 下 列 截图 的 页 面 。 


Create a New job Flow Ganenl [2 
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. 现在 ， 应 该 看 到 类 似 上 述 截图 的 页 面 。 选 择 Run a sample 
application 单 选 按钮 ， 从 示例 程序 下 拉 框 选择 Word Count 
(Streaming) 菜单 ， 点 击 Continue 按钮 。 





Create a New Job Flow Carenl * 
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Output Location®; Dany mwonico mt ore at.110 
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. 如 以 上 截图 所 示 ， 下 一 步 的 屏幕 允许 用 户 指定 作业 的 输出 位 置 。 在 


输出 位 置 文本 框 中 ， 输 入 步骤 1 创建 的 桶 的 名 称 〈 这 里 使 用 的 桶 的 
名 称 为 garryt1luse ) ， 然 后 点 击 Continue 按钮 。 





Create a New job Flow 
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. 在 下 一 步 的 页 面 中 ， 用 户 可 以 修改 作业 所 用 虚拟 主机 数 及 其 规格 。 
确保 每 个 组 合 框 的 实例 类 型 为 Small (m1.small) ， 核 心 组 的 节点 数 
量 为 2 ， 任 务 组 的 节点 数量 为 0 。 然 后 点 击 Continue 按钮 。 


8.“ 下 一 步 ” 的 截图 包含 了 一 些 本 例 中 用 不 到 的 一 些 选项 。 对 于 
Amazon EC2 key pair 区 域 ， 选 择 Proceed without key pair 荣 单 ， 
对 于 Enable Debugging 区 域 ， 选 择 No 。 确 保 Keep Alive 单 选 按钮 
被 设 为 No 并 单 击 Continue 按钮 。 


Create a Naw Job fiow 











9. 如 上 图 所 示 ， 用 户 现 在 并 不 需要 在 “下 一 步 * 页 面 做 太 多 工作 。 确 认 
Proceed with no Bootstrap Actions 单 选 按钮 被 选中 并 点 击 Continue 
按钮 。 


Create a New 0b Flow 


wienste 
Extre Args: 而 





Master nstanoce TYPA Instonocoe Comd’! 3 
Core Beamce Type Imstonce Cound: > 
Armmarem EC Key Peakr 

Amazen £3109 Ph: 


tnable Hadoep Dobe9gging 
Roop Alve: 


Bootstrap Actions: 


Cpae wh le 已 


10. 确认 作业 流 的 设置 与 预 


一 致 ， 点 击 Create Job Flow 按钮 。 之 后 
点 击 View my Job plows J status 按钮 。 这 样 会 列 出 用 户 的 所 
有 作业 流 ， 用 户 可 筛选 只 


\ 显 示 正 在 运行 的 作业 或 已 结束 的 作业 。 默 
认 设 置 是 显示 所 有 作业 ， 如 同 下 图 所 示 。 
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11. 不 时 地 点 击 Refresh 按钮 ， 直 到 列 出 的 作业 状态 从 Running 
或 Starting 变 为 Complete ， 然 后 点 击 其 复 选 框 查看 作业 流 的 详情 
如 下 图 所 示 。 
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12. 点 击 S3 标签 并 选择 你 为 输出 位 置 所 创建 的 容器 。 你 将 看 到 它 有 一 
个 称 为 wordcount 的 入 口 ， 这 是 一 个 路 径 。 右 击 它 并 选择 Open 。 
然后 重复 上 述 动作 直至 看 到 真实 文件 的 列表 ， 它 们 遵守 类 似 Hadoop 
的 part-nnnnn 命名 规则 ， 如 下 图 所 示 。 
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右 击 并 打开 part-00000 。 它 应 该 看 起 来 与 下 列 内 容 类 似 : 





aa 52 
aakar 3 


aargalu 3 
abad 3 

abandoned 46 
abandonment 6 


abauj 3 
abbassid 4 
abbes 3 
abbl 3 











这 种 类 型 的 输出 看 起 来 是 不 是 有 点 见 悉 ? 


原理 分 析 


第 1 个 步骤 是 针对 S3 进 行 的 ， 而 非 EMR。S3 是 一 个 可 扩展 的 存储 服务 ， 

它 允 许 用 户 在 叫做 桶 的 容器 内 存储 文件 ( 称 为 对 象 )， 并 使 用 桶 和 对 象 
的 键 (也 就 是 名 称 ) 来 访问 对 象 。 该 模型 类 似 于 文件 系统 的 使 用 情况 ， 

虽然 也 有 潜在 的 差异 ， 但 这 些 区 别 在 本 书 中 并 不 重要 。 


S3 是 放置 MapReduce 程 序 及 竺 处 理 的 源 数 据 的 地 方 ， 也 是 存储 输出 数据 
及 EMR Hadoop 作 业 日 志 的 地 方 。 有 大 量 的 第 三 方 工具 可 以 访问 S3， 但 
0 它 是 访问 大 多 数 AWS 服 务 的 浏览 器 
界面 。 


虽然 我 们 建议 用 户 为 S3 选 择 最 近 的 地 理 区 域 ， 但 这 不 是 必需 的 。 美 国之 
外 的 地 区 ，Amazon 通 常会 为 接近 它们 的 客户 提供 较 小 的 延 运 ， 但 用 户 

也 往往 需要 文 付 略 高 的 费用 。 在 什么 地 方 托管 数据 和 应 用 程序 ， 需 要 用 
户 综合 考虑 所 有 因素 后 决定 。 


创建 $3 存储 桶 后 ， 我 们 转 到 EMR 控 制 台 并 创建 了 一 个 新 的 作业 流 。 在 
EMR， 这 个 术语 用 来 指 代 一 个 数据 处 理 任务 。 正 如 我 们 将 要 看 到 的 ， 它 
可 以 是 一 个 一 次 性 作业 ， 底 层 的 Hadoop 集 群 按 需 创建 和 销毁 ;也 可 以 是 
一 个 长 期 运行 的 集群 ， 在 它 上 面 执行 着 多 个 作业 。 


我 们 保留 了 了 默认 的 作业 流 名 称 ， 然 后 选择 使 用 一 个 示例 应 用 程序 。 在 
这 个 案例 中 ， 示 例 程序 是 用 Python 实现 的 字数 统计 程序 WordCount。 
Hadoop Streaming 是 指 一 种 机 制 ， 它 允许 使 用 脚本 语言 编写 map 和 reduce 
任务 ， 但 功能 与 我 们 先前 使 用 的 Java 字 数 统计 程序 相同 。 











配置 作业 流 的 表单 需要 填写 源 数据 和 程序 的 位 置 ，map 和 reduce 类 的 位 

置 及 所 需 的 输出 数据 的 位 置 。 对 于 我 们 刚刚 看 到 的 这 个 例子 ， 大 多 数 区 
域 都 是 预先 填 好 的 ， 可 以 看 出 ， 这 与 在 命令 行 中 运行 本 地 Hadoop 所 需 的 
内 容 ， 有 明显 的 相似 之 处 。 


通过 不 选择 Keep Alive 选项 ， 我 们 创建 了 一 个 一 次 性 Hadoop 集 群 ， 它 专 
门 为 执行 本 作业 而 创建 ， 作 籽 完 成 后 就 会 被 销毁 。 这 类 集群 的 局 动 时 间 
较 长 ， 但 会 最 大 限度 地 降低 成 本 。 如 果 您 选择 保持 作业 流 活跃 ， 你 会 看 
到 更 多 的 作业 被 更 迅速 地 执行 ， 因 为 你 不 必 等 竺 集群 启动 。 但 是 你 需要 
为 EC2 基 础 资源 文 付费 用 ， 直 到 明确 地 终止 该 作业 流 。 


在 确认 之 后 ， 我 们 不 需要 诬 加 任何 附加 的 局 动 选 项 。 我 们 选择 了 和 希望 部 
署 在 Hadoop 集 群 的 主机 类 型 和 主机 数 。EMR 有 3 组 不 同 的 主机 。 


。 主 实例 组 : 这 是 一 个 承载 着 NameNode 和 JobTracker 的 控制 节点 。 
主 实例 组 中 只 有 1 个 这 样 的 节点 。 


。 核心 实例 组 : 这 些 实例 是 运行 着 HDFS DataNode 和 MapReduce 
TaskTracker 的 节点 。 这 些 主机 的 数量 是 可 配置 的 。 


。 任务 实例 组 : 这 些 主 机 不 持 有 HDEFS 数 据 ， 却 运行 TaskTracker， 并 
能 提供 更 多 的 处 理 能 力 。 主 机 的 数量 是 可 配置 的 。 


主机 类 型 代表 着 不 同 级 别 的 硬件 能 力 ， 详 细 内 容 可 在 EC2 页 面 上 找到 。 
较 大 的 主机 有 较 强 的 运算 能 力 ， 同 时 价格 也 较 高 。 目 前 ， 默 认 情 况 下 ， 
一 个 作业 流 的 主机 总 数 一 定 小 于 等 于 20 个 ， 但 亚马逊 有 一 种 简单 的 形式 
可 以 申请 更 高 的 限制 。 


确认 后 ， 一 切 都 如 了 预期， 我 们 启动 作业 流 并 在 控制 台 上 查看 其 运行 状 
况 ， 直 到 状态 变 为 COMPLETED 。 这 时 ， 我 们 回 到 S3， 查 看 由 我 们 指 
定 的 作为 输出 目标 的 桶 ， 并 检查 字数 统计 作业 的 输出 。 它 应 当 与 本 地 
Hadoop 的 字数 统计 的 输出 看 起 来 非常 相似 。 


一 个 明显 的 问题 是 ， 源 数据 来 自 哪里 ? 这 是 作业 流 设置 中 的 一 个 预 填充 
字段 ， 我 们 在 创建 作业 流 的 过 程 中 看 到 过 。 对 于 非 持 久 性 的 作业 流 ， 最 
常见 的 模型 是 ， 从 一 个 指定 的 S3 源 位 置 读 取 数 据 并 将 所 得 到 的 数据 写 入 
到 指定 的 结果 S3 桶 中 。 














这 就 是 AWS 管 理 控 制 台 ! 它 允 许 用 户 通 过 浏览 器 对 服务 (如 S3 和 
EMR) 进行 细 粒 上 度 的 控制 。 仪 需 拥 有 一 个 浏览 器 和 一 张 信 用 卡 ， 我 们 就 
可 启动 Hadoop 作 业 来 处 理 数据 ， 无 需 担 心安 装 、 运 行 、 管 理 Hadoop 的 
任何 机 制 问题 。 





一 展 身 手 : 其 余 EMR 示 例 程序 

EMR 提 供 了 其 他 几 个 示例 应 用 程序 ， 为 什么 不 同时 试 试 它们 呢 ? 
2.13.1 ”使 用 EMR 的 其 他 方式 

虽然 AWS 管 理 控制 台 是 一 个 强大 的 和 令 人 印象 深刻 的 工具 ， 它 并 不 总 


是 我 们 想 要 用 来 访问 S3 和 运行 EMR 作 业 的 方式 。 如 同 所 有 的 AWS 服 
务 ， 用 户 可 通过 可 编程 的 工具 或 命令 行 工具 来 使 用 这 些 服务 。 





1. AWS 证 书 








然而 ， 在 使 用 可 编程 工具 或 命令 行 工 具 之 前 ， 我 们 需要 明白 账号 持 有 人 
如 何 通 过 AWS， 从 而 提出 服务 申请 。 因 为 这 些 都 是 收费 服务 ， 用 户 确 
实 不 希望 其 他 任何 人 以 他 们 的 名 义 提 出 服务 申请 。 请 注意， 在 之 前 的 例 
子 中 ， 我 们 用 上 自己 的 AWS 账 号 直接 登录 到 AWS 管 理 控制 台 ， 因 此 无 需 
担心 这 个 问题 。 


每 个 AWS 账 号 都 有 香干 个 标识 待 ， 这 些 标 识 符 会 在 访问 这 些 服务 的 时 
候 用 到 。 


。 账号 ID: 每 个 AWS 账 号 都 有 一 个 数字 ID。 


。 访问 秘 钥 : 每 个 账号 都 有 一 个 关联 的 访问 秘 钥 ， 它 用 于 申请 服务 时 
的 账号 验证 。 


。 秘密 访问 秘 钥 : 秘密 访问 秘 钥 是 访问 秘 钥 的 搭档 。 访 问 秘 钥 并 不 是 
私密 的 ， 它 会 姑 露 在 服务 请 求 过 程 中 ， 但 是 秘密 访问 秘 钥 只 由 账号 
主人 保管 ， 可 用 于 证 明 账 号 主人 的 里 份 。 


。 密 钥 对 : 这 是 用 于 登录 到 EC2 主 机 的 密 钥 对 。 既 可 以 在 EC2 中 生成 
公 钥 / 私 钥 密 钥 对 ， 也 可 以 将 外 部 生成 的 密 钥 对 导入 到 系统 中 。 











似乎 听 起 来 有 点 乱 ， 实 际 情况 确实 如 此 一 至 少 第 一 次 接触 时 是 这 样 
的 。 然 而 ， 当 使 用 工具 访问 AWS 服 务 时 ， 通 常 只 要 事先 将 正确 的 证 书 
加 入 配置 文件 ， 一 切 都 会 正常 工作 。 但 是 ， 如 果 读 者 决定 深入 研究 可 编 
程 工具 或 命令 行 工具 ， 值 得 投入 一 点 时 间 来 阅读 每 个 服务 的 文档 ， 以 了 
解 其 安全 机 制 的 工作 原理 。 





2.EMR 命 令 行 工 具 


本 书 中 ， 我 们 不 会 用 3 和 EMR 来 实现 任何 不 能 从 AWS 管 理 控制 台 实 现 
的 事情 。 然 而 ， 当 处 理 业 务工 作 负 和 载 ， 整 合 其 他 工作 流程 或 自动 化 访问 
服务 时 ， 无 论 基 于 浏览 需 的 工具 有 多 强大 ， 它 都 不 适用 于 这 样 的 问题 。 
口 可 以 实现 最 精细 的 控制 ， 但 却 需要 付出 最 多 的 
努力 。 














Amazon 为 许多 服务 提供 了 一 组 命令 行 工具 ， 这 是 一 种 目 动 访问 AWS 服 

务 的 有 效 方式 ， 可 以 最 大 限度 地 减少 所 需 的 开发 工作 量 。 如 果 读 者 想 再 
实现 一 个 基于 CLI 的 EMR 接 口 ， 却 又 不 想 编 写 自 定义 代码 的 话 ， 可 以 试 
试 链 接 于 EMR 主 页 面 的 弹性 MapReduce 命 令 行 工具 。 





2.13.2 AWS 生 态 系统 


每 种 AWS 服 务 都 有 大 量 的 第 三 方 工具 、 服 务 和 函数 库 ， 它 们 可 以 提供 
访问 服务 的 不 同方 式 、 额 外 的 功能 ， 或 新 的 实用 程序 。 作 为 熟悉 AWS 
生态 系统 的 起 点 ， 请 到 http://aws.amazon.com/developertools 页 面 查看 开 
发 人 员工 具 集 。 


2.14 本 地 Hadoop 与 EMR Hadoop 的 对 比 


有 了 关于 本 地 Hadoop 集 群 及 EMR Hadoop 集 群 的 第 一 次 经 验 后 ， 这 是 一 
个 考虑 这 两 种 方法 差异 的 好 时 机 。 


二 者 的 差异 可 能 是 明显 的 ， 其 关键 区 别 并 不 在 于 能 力 。 如 果 我 们 需要 的 
是 一 个 运行 MapReduce 作 业 的 环境 ， 任 何 一 种 方法 都 没 问 题 。 相 反 ， 主 
要 的 区 别 点 在 第 1 章 中 曾 提 及 的 一 个 话题 ， 那 就 是 : 你 是 喜欢 一 个 包含 
前 期 基础 设施 费用 以 及 持续 的 维护 工作 的 成 本 模型 ， 还 是 喜欢 一 个 具有 
较 低 维护 负担 、 可 快速 实现 的 、 理 论 上 具有 无 限 扩展 性 的 按 需 付费 的 成 
本 模型 。 除 了 成 本 因素 外 ， 要 牢记 以 下 几 点 内 容 。 


。 EMR 文 持 特 定 版 本 的 Hadoop， 并 会 随 着 时 间 推 移 升 级 Hadoop 版 
本 。 如 果 用 户 需 要 某 个 特定 的 版 本 ， 尤 其 是 ， 如 果 用 户 需 要 在 新 版 
本 发 布 后 马上 获得 最 新 、 最 稳定 的 版 本 ， 那 么 EMR Hadoop 升 级 到 
所 需 版 本 之 前 的 时 间 间 隔 是 用 户 不 可 接受 的 。 


。 用 户 可 以 启动 一 个 持久 的 EMR 作 业 流 ， 并 将 其 视 为 一 个 本 地 
Hadoop 焦 群 ， 登 录 到 主机 节点 ， 并 调整 它们 的 配置 。 如 果 你 发 现 自 
己 正 在 这 样 做 ， 值 得 好 好 考虑 一 下 ， 果 真 需要 这 样 控制 Hadoop 集 群 
吗 ? 如 果 答 案 是 肯定 的 ， 那 么 从 本 地 Hadoop 转 到 EMR 带 来 的 成 本 
优势 是 否 依然 存在 ? 


。 如 末 它 最 终归 结 为 成 本 问题 ， 切 记 要 考虑 本 地 集群 的 所 有 隐 性 成 
本 ， 人 们 通 第 会 起 挥 这 些 隐 和 性 成 本 。 想 想 电力 、 场 地 、 制 冷 和 主机 
设备 的 费用 。 且 不 说 管理 开销 ， 如 宋 设 备 在 凌晨 出 现 故 障 ， 管 理 成 
本 也 是 一 笔 不 小 的 开销 。 




















2.15 ”小 结 


本 章 内 容 讲 述 了 如 何 安装 并 运行 一 个 Hadoop 和 集群 ， 以 及 在 Hadoop 焦 群 
上 执行 MapReduce 程 序 的 步骤 。 


具体 来 说 ， 我 们 讨论 了 在 本 地 Ubuntu 主 机 上 运行 Hadoop 的 前 提 条 件 ， 也 

介绍 了 如 何以 独立 式 或 伪 分 布 式 模式 安装 和 配置 本 地 Hadoop 集 群 。 之 

后 ， 我 们 讲解 了 如 何 访问 HDFS 文 件 系 统 和 提交 MapReduce 作 业 。 然 

加 前 进 ， 学 习 了 访问 弹性 MapReduce 和 其 他 AWS 服 务 需 要 用 
| 的 账号 。 


我 们 了 解 了 如 何 使 用 AWS 管 理 控制 台 浏 览 并 创建 S3 桶 和 对 象 ， 以 及 如 
何 创 建 一 个 作业 流 并 用 它 在 EMR 托 管 的 Hadoop 集 群 上 执行 MapReduce 作 
业 。 我 们 还 讨论 了 访问 AWS 服 务 的 其 他 方式 ， 并 研究 了 本 地 Hadoop 和 
EMR 托 管 Hadoop 之 间 的 差异 。 


既然 我 们 已 经 学 习 了 在 本 地 或 EMR 运 行 Hadoop 的 方法 ， 我 们 已 经 准备 
好 开始 编写 自己 的 MapReduce 程 序 了 ， 这 将 是 下 一 章 的 主题 。 


第 3 革 ”理解 MapReduce 

前 两 章 讨 论 了 Hadoop 可 以 解决 的 问题 ， 并 有 了 一 些 运 行 MapReduce 示 

例 作 业 的 实践 经 验 。 在 此 基础 上 ， 接 下 来 我 们 继续 深入 研究 。 
通过 本 章 学 习 ， 读 者 将 会 : 

。 理解 刍 值 对 为 何 可 以 成 为 Hadoop 任 务 的 基础 ; 

。 了 解 MapReduce 作 业 的 多 个 阶段 ; 

。 详细 探讨 map、reduce 以 及 可 选 组 合 阶段 的 工作 原理 ; 

。 学 习 Hadoop Java API， 并 用 它 开发 一 些 简单 的 MapReduce 作 业 ; 


。 了 解 Hadoop 的 输入 和 输出 。 


3.1 键 值 对 
自 第 1 章 开始 ， 我 们 一 直 在 谈论 以 键 值 对 的 形式 处 理 数据 并 输出 结 


而 没有 解释 为 什么 要 以 键 值 对 的 形式 进行 。 现 在 是 时 候 来 曾 述 这 个 问题 
了 

311 油 体 各 光 

首先 ， 我 们 会 通过 强调 Java 标 准 库 中 的 类 似 概念 ， 来 阐明 我 们 所 说 的 键 
值 对 的 含义 。java.util.Map 接口 是 常用 类 ， 如 HashMap ， 甚 至 原始 
Hashtable 的 父 类 (通过 向 后 重 构 代码 库 〉。 

对 于 任何 Java Map 对 象 ， 其 内 容 是 从 指定 类 型 的 给 定 键 到 相关 值 的 一 组 
映射 ， 键 与 值 的 数据 类 型 可 能 不 同 。 例 如 ， 一 个 HashMap 对 象 可 以 包含 
从 人 名 (string ) 到 其 生日 (Date ) 的 一 组 映射 。 

Hadoop 中 的 数据 包含 与 相关 值 关 联 的 键 。 这 些 数据 的 存储 方式 允许 对 数 
据 集 的 不 同 值 根据 键 进行 分 类 和 重 排 。 如 果 使 用 键 值 对 数据 ， 应 该 会 有 
如 下 疑问 : 

。 在 数据 集中 ， 一 个 给 定 的 键 必然 有 映射 值 吗 ? 

。 给 定 键 的 关联 值 是 什么 ? 

。 刍 的 完整 集合 是 什么 ? 

回忆 一 下 前 一 章 提 到 的 WordCount。 稍 后 ， 我 们 将 更 详细 地 讨论 它 ， 然 
而 该 程序 的 输出 显然 是 键 / 值 关系 的 集合 。 对 于 每 个 字 〈 键 ) ， 都 有 对 
应 着 它 出 现 的 次 数 〈 值 ) 。 琢 磨 一 下 这 个 简单 的 例子 ， 键 / 值 数据 的 一 
些 重要 特征 就 变 得 清晰 起 来 ， 具 体 如 下 : 

键 必 须 是 唯一 的 ， 而 值 并 不 一 定 是 唯一 的 ; 


每 个 值 必须 与 键 相 关联 ， 但 键 可 能 没有 值 〈 虽 然 在 这 个 特定 的 例子 
中 没有 出 现 这 种 情况 ) ; 


对 键 进行 明确 定义 非常 重要 。 它 决定 了 计数 是 否 区 分 大 小 写 ， 这 将 




















产生 不 同 的 结果 。 


提示 : 请 注意 ， 我 们 需要 审慎 对 符 “ 键 是 唯一 的 ”> 这 一 概念 。 这 并 不 是 
说 键 只 出 现 一 次 。 在 我 们 的 数据 集中 ， 可 以 看 到 键 多 次 出 现 。 并 且 我 
们 将 看 到 ，MapReduce 模 型 有 一 个 将 所 有 与 特定 键 关 联 的 数据 汇集 的 
步骤 。 键 的 唯一 性 保证 了 ， 假 如 我 们 为 菜 一 给 定 键 汇 集 对 应 的 值 ， 结 
果 将 是 从 该 键 的 实例 到 每 个 值 的 映射 ， 不 会 忽略 掉 任 何 值 。 


3.1.2 ”为 什么 采用 键 / 值 数 据 


键 / 值 数 据 作 为 MapReduce 操 作 的 基础 ， 成 就 了 一 个 强大 的 编程 模型 ， 使 
MapReduce 获 得 了 令 人 惊讶 的 广泛 应 用 。Hadoop 和 MapReduce 被 多 种 不 
同行 业 和 问题 领域 所 采用 即 证 实 了 这 一 点 。 很 多 数据 要 么 本 里 即 为 键 / 
值 形 式 ， 要 么 可 以 以 键 / 值 这 种 方式 来 表示 。 键 值 数据 这 一 简单 的 模型 
上 其 有 广泛 的 适用 性 ， 以 这 种 形式 定义 的 程序 可 以 应 用 于 Hadoop 框 染 。 


当然 ， 数 据 模型 本 身 并 非 是 使 Hadoop 如 此 强大 的 唯一 要 素 ， 它 真正 的 强 
大 之 处 在 于 如 何 运 用 并 行 处 理 技术 以 及 分 而 治之 思想 ， 这 些 都 在 第 1 章 

中 讨论 过 。 我 们 可 以 在 大 量 主 机 上 储存 、 执 行 数 据 ， 甚 至 使 用 将 较 大 任 
务 分 割 成 较 小 任务 的 框架 ， 然 后 将 所 有 的 并 行 结果 整合 成 最 终结 论 。 但 
是 ， 我 们 需要 上 述 框架 提供 一 种 描述 问题 的 方法 ， 即 便 用 户 不 懂 该 框架 
的 运行 机 理 ， 也 能 表述 清楚 要 处 理 的 问题 。 我 们 只 需 对 数据 所 需 的 转换 
进行 描述 ， 其 余 事情 由 该 框架 完成 。MapReduce 利 用 其 键 / 值 接口 提供 了 
这 样 的 抽象 : 程序 员 只 需 指定 所 要 求 的 转换 ，Hadoop 完 成 对 任意 规模 数 
据 集 的 复杂 的 数据 转换 处 理 过 程 。 






































一 些 实际 应 用 
为 了 更 为 具体 地 理解 键 值 对 ， 可 以 想像 一 些 实际 应 用 的 键 值 对 数据 : 
。 通讯 短 将 一 个 名 字 〈 键 ) 和 联系 方式 〈 值 ) 关联 起 来 ; 
。 银行 帐号 使 用 一 个 帐号 〈 键 ) 关联 帐户 明细 《〈 值 ) ; 
。 一 本 书 的 索引 关联 一 个 关键 字 【〈 键 》 和 其 所 在 页 码 〈 值 ) ; 
。 在 计算 机 文件 系统 中 ， 根 据 文 件 名 《〈 键 ) 访问 各 类 数据 ， 如 文本 、 


图 片 和 语音 〈 值 〉。 
我 们 刻意 列举 了 一 些 范 围 宽泛 的 例子 ， 帮 助 读 者 认识 到 ， 键 / 值 数据 并 
不 是 只 能 应 用 于 局 站 数据 挖掘 的 约束 模型 ， 而 古 环 绕 我 们 映 边 的 非 第 普 
通 的 模型 。 
我 们 之 所 以 大 篇 幅 地 讨论 键 值 对 数据 ， 是 因为 深入 理解 键 值 对 的 概念 对 
理解 并 使 用 Hadoop 非 常 重要 。MapReduce 只 能 处 理 以 键 值 对 形式 描述 的 
数据 。 


3.1.3 ”MapReduce 作 为 一 系列 键 / 值 变换 


读者 可 能 侦 然 见 过 把 MapReduce 搬 述 成 一 系列 键 / 值 转换 的 描述 方法 。 这 
种 描述 方法 看 上 去 有 点 吓人 。 


{K1,V1} -> {K2, List<V2>} -> {K3,V3} 


现在 我 们 试图 去 理解 上 式 所 表达 的 意思 。 
。 MapReduce 作 业 的 map 方法 的 输入 是 一 系列 键 值 对 ， 称 之 为 K1 和 V1 





。map 方法 的 输出 (今后 作为 reduce 方法 的 输入 ) 是 一 系列 键 以 及 
与 之 关联 的 值 列 表 ， 称 之 为 K2 和 V2 。 需 要 注意 的 是 ， 每 个 mapper 
人 
值 列 表 。 


。 MapReduce 作 业 的 最 终 得 出 是 另 一 串 键 值 对 ， 称 之 为 K3 和 V3 。 


这 些 键 值 对 的 集合 可 能 相同 也 可 能 不 同 ， 也 惑 是 说 ， 很 可 能 输入 姓名 和 
联系 方式 然后 输出 相同 内 容 ， 也 许 附 带 有 一 些 用 于 整理 信息 的 中 间 格 
式 。 请 在 接 下 来 探索 MapReduce 的 Java API 时 记 住 这 个 3 阶段 模型 。 首 
先 ， 我 们 会 浏览 将 要 用 到 的 API 的 主要 部 分 ， 然 后 系统 谢 析 一 个 
MapReduce 作 业 的 执行 过 程 。 














随 堂 测验 : 键 值 对 


问题 1 键 值 对 的 概念 是 什么 ? 

1. Hadoop 创 造 并 专用 的 概念 。 

2. 表述 我 们 经 党 看 到 但 并 没有 这 样 考虑 的 事物 间 关 系 的 一 种 方法 。 
3. 一 个 计算 机 科学 的 学 术 概 念 。 

问题 2 用 户 名 /密码 组 合 是 键 值 对 的 一 个 例子 吗 ? 

1. 是 的 ， 这 是 一 个 值 与 为 一 个 值 相 关联 的 明显 例子 。 


i 


3. 通常 我 们 并 不 这 样 认 为 ， 但 是 Hadoop 仍 可 将 用 户 名 /密码 组 合作 为 
键 值 对 组 合 来 处 理 。 











3.2 MapReduce 的 Hadoop Java API 


Hadoop API 在 0.20 版 发 生 了 重大 变化 ， 构 成 了 本 书 使 用 的 Hadoop 1.0 版 
的 主要 接口 。 虽 然 之 前 的 API 功 能 运转 正常 ， 但 社会 各 界 认 为 ， 它 在 某 
些 方面 是 笨拙 的 且 被 弄 得 不 必要 的 复杂 。 


新 API， 有 时 也 称 为 上 下 文 对 象 ， 其 原因 我 们 将 在 后 面 看 到 ， 它 是 使 用 
Java 开 发 MapReduce 的 未 来 趋势 。 因 此 ， 本 书 将 尽量 使 用 新 API。 需 要 
注意 的 是 : 部 分 0.20 之 前 的 MapReduce 库 没有 被 移植 到 新 API， 所 以 当 我 
们 需要 分 析 其 中 任何 接口 时 ， 将 使 用 旧 API。 





0.20 MapReduce Java API 


在 org.apache.hadoop .mapreduce 包 或 其 子 包 中 ， 包 含 了 0.20 及 以 上 
版 本 的 MapReduce API 实 现 的 大 部 分 关键 类 和 接口 。 








org.apache.hadoop.mapreduce 包 提 供 了 Mapper 和 Reducer 其 类 。 
在 大 多 数 情 况 下 ， 一 个 MapReduce 作 业 会 继承 上 述 基 类 ， 实 现 针 对 该 作 
业 的 Mapper 和 Reducer 子 类 。 








提示 : 虽然 最 近 的 Hadoop API 使 用 了 KEYIN/VALUEIN 和 KEYOUT/ 
VALUEOUT 读 的 术语 ， 但 由 于 K1 / K2 / K3 / 等 术语 有 助 于 理解 端 
到 端的 数据 流 ， 本 书 将 坚持 使 用 K1 / K2 / K3 / 等 形式 的 术语 。 


1. Mapper 类 


这 是 Hadoop 提 供 的 Mapper 基 类 的 缩减 视图 。 目 定义 的 mapper 类 的 实现 
将 继承 该 基 类 并 重 写 指定 的 方法 ， 如 下 所 示 : 


class Mapper<K1, V1i, K2, V2> 


void map(K1 key, V1 value Mapper.Context context) 
throws IOException, InterruptedException 





虽然 使 用 Java 泛 型 使 该 类 乍 看 起 来 有 些 难 以 理解 ， 其 实 没 那么 复杂 。 该 
类 以 键 / 值 数据 作为 输入 和 输出 类 型 ， 其 map 方法 以 输入 的 键 值 对 作为 参 
数 。 另 一 个 参数 是 Context 类 的 实例 ， 它 提供 了 与 Hadoop 框 架 通 信 的 
多 种 机 制 ， 其 中 之 一 是 输出 map 或 reduce 方法 的 结 


提示 :， 请 注意 ，map 方法 只 引用 了 K1 和 V1 键 值 对 的 一 个 实例 。 这 是 
MapReduce 范 式 的 一 个 关键 特点 ， 在 这 个 范式 下 ， 用 户 编 写 处 理 单 条 
记录 的 类 ， 框 架 负 贡 将 巨大 的 数据 集 转化 为 键 值 对 流 的 所 有 工作 。 读 
者 永远 不 必 编 写 处 理 完整 数据 集 的 map 或 reduce 类 。Hadoop 也 通过 
InputFormat 和 OutputFormat 类 提供 了 类 似 机 制 ， 这 些 类 提供 了 普 








通 文 件 格式 的 实现 ， 除 特殊 文件 类 型 外 ， 用 户 无 需 编 写 文件 解析 器 。 
有 时， 用 户 可 能 需要 重 写 男 外 3 个 方法 。 


protected void setup( Mapper.Context context) 
throws IOException, Interrupted Exception 








该 方法 在 任何 键 值 对 被 提交 给 map 方法 之 前 ， 被 调用 一 次 。 该 方法 的 默 
认 实 现 不 执行 任何 操作 。 


protected void cleanup( Mapper .Context context) 
throws IOException, Interrupted Exception 











该 方法 在 所 有 和 键 值 对 被 提交 给 map 方法 之 后 ， 锐 调用 一 次 。 该 方法 的 默 
认 实 现 不 执行 任何 操作 。 


protected void run( Mapper .Context context) 
throws IOException, Interrupted Exception 











此 方法 控制 JVM 中 任务 处 理 的 总 体 流 程 。 该 方法 的 默认 实现 将 在 对 数据 
分 块 中 的 每 个 键 值 对 反复 调用 map 方法 之 前 ， 调 用 一 次 setup 方法 ， 并 


最 终 调 用 一 次 cleanup 方法 。 


技巧 : 下 载 示 例 代码 

读者 可 以 使 用 http://www.packtpub.com 的 账号 下 载 所 购买 的 所 有 Packt 
书籍 的 示例 代码 文件 。 或 者 访问 http:/www.packtpub.com/support ， 并 
在 该 页 面 注册 ， 读 者 将 收 到 通过 电子 邮件 寄 来 的 示例 代码 文件 。 


2. Reducer 类 


Reducer 基 类 的 运行 与 Mapper 基 类 非常 相似 ， 通 常 子 类 仪 需 重 写 一 
个 reduce 方法 。Reducer 基 类 的 缩 略 定义 如 下 : 


public class Reducer<K2, V2, K3, V3> 
{ 
void reduce(K1 key, Iterable<V2> values, 
Reducer .Context context) 
throws IOException, InterruptedException 





再 次 注意 ， 该 类 以 更 广泛 的 数据 流 的 形式 进行 定义 (reduce 方法 接受 
K2/V2 作为 输入 ， 并 提供 K3/V3 作为 输出 ) ， 而 实际 reduce 方法 只 需 
ee 同样 ，Context 对 象 负 责 输出 该 方法 
结果。 


该 类 也 有 setup 、run 和 cleanup 方法 ， 这 些 方法 的 默认 实现 
与 Mapper 类 的 类 似 ， 可 以 选择 性 地 进行 重 写 : 


protected void setup( Reduce.Context context) 
throws IOException, InterruptedException 





该 方法 在 任何 键 / 值 列表 被 提交 给 reduce 方法 之 前 ， 被 调用 一 次 。 其 默 





认 实 现 不 执行 任何 操作 。 


protected void cleanup( Reducer.Context context) 


throws IOException, InterruptedException 








该 方法 在 所 有 键 / 值 列表 被 提交 给 reduce 方法 之 后 ， 被 调用 一 次 。 其 默 
认 实 现 不 执行 任何 操作 。 


protected void run( Reducer .Context context) 
throws IOException, InterruptedException 








该 方法 对 JVM 中 任务 处 理 的 总 体 流程 进行 控制 。 其 默认 实现 在 对 提供 给 
Reducer 类 的 众多 键 值 对 反复 调用 reduce 方法 之 前 ， 调 用 setup 方 
法 ， 并 在 最 后 调用 cleanup 方法 。 





3. Driver 类 


除 Mapper 和 Reducer 类 外 ， 执 行 MapReduce 作 业 还 需要 另外 一 段 代 码 
负 贡 与 Hadoop 框 架 通 信 并 指定 运行 MapReduce 作 业 所 需 的 配置 元 素 
的 驱动 程序 。 驱 动 程序 的 工作 涉及 多 个 方面 ， 例 如 告诉 Hadoop 使 用 哪 
个 Mapper 和 Reducer 类 ， 以 何 种 格式 在 何 处 获取 输入 数据 ， 在 何 处 存 
放 输 出 数据 ， 以 及 如 何 对 输出 数据 进行 格式 化 。 驱 动 程序 还 负责 设置 其 
他 各 种 配置 选项 ， 本 书 将 会 讲 到 它们 。 


作为 一 个 子 类 ，Driver 没 有 默认 父 类 。 驱 动 逻 辑 通 和 存 在 于 封装 
MapReduce 作 业 类 的 主 方法 中 。 下 述 代码 厂 段 是 一 个 示例 驱动 程序 。 读 
I 却 要 大 体 明 白 每 行 代码 实现 的 配置 
于 务 。 



































public class ExampleDriver 


{ 


public static void main(String[] args) throws Exception 




















{ 

// 创建 Configuration 对 象 ， 用 于 设置 其 他 选项 
Configuration conf = new Configuration() ; 

// 创建 作业 对 象 

Job job = new Job(conf， "ExampleJob") ; 








// 设置 作业 jarfile 中 主 类 的 名 字 

job.setJarByClass(ExampleDriver.class) ; 

mapper 类 

ob.setMapperClass(ExampleMapper.class) ; 

置 reducer 类 

ob.setReducerClass(ExampleReducer.class) ; 

置 最 终 输 出 的 键 和 值 的 类 型 
job.setOutputKeyClass(Text.class) ; 
job.setOutputValueClass(IntWritable.class) ; 

// 设置 输入 和 输出 文件 路 径 

FileInputFormat .addInputPath(job，new Path(args[6])) ; 

FileOutputFormat .setOutputPath(job，new Path(args[1])) 

// 执行 并 等 待 作业 完成 

System.exit(job.waitForCompletion(true) ? 0 : 1); 

} 

}} 








~ 
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鉴于 之 前 对 作业 的 讨论 ，Driver 类 实现 的 大 部 分 设置 与 Job 对 象 的 操 
作 相 关 ， 这 不 足 为 奇 。 这 些 设置 包括 设置 作业 的 名 称 ， 指 定 用 作 mapper 


和 reducer 的 类 。 


Driver 类 还 对 某 些 输入 /输出 配置 进行 了 设置 ， 最 终 传递 给 main 方 法 的 
参数 被 用 于 指定 作业 的 输入 和 输出 位 置 。 这 是 读者 会 经 常 看 到 的 一 个 很 
普遍 的 模式 。 


对 于 配置 选项 ， 有 很 多 的 默认 值 。 在 前 面 的 类 中 ， 我 们 隐 式 地 使 用 其 中 
的 一 些 默认 设置 。 最 值得 注意 的 是 ， 我 们 没有 提 和 输入 文件 的 格式 及 输出 
文件 的 写 入 方式 。 这 些 内 容 在 前 面 提 到 的 InputFormat 和 
OutputFormat 类 中 进行 了 定义 ， 我 们 稍 后 将 对 其 进行 详细 探讨 。 默 认 
的 输入 和 输出 格式 是 文本 文件 ， 这 些 文本 文件 适用 于 WordCount 示 例 程 
除 特 别 优化 的 三 进 制 格式 外 ， 有 多 种 表示 文本 文件 内 部 格式 的 方 
法 。 


对 于 不 太 复 杂 的 MapReduce 作 业 ， 一 种 常见 的 模型 是 将 Mapper 和 
Reducer 类 作为 驱动 程序 的 内 置 类 。 这 种 模型 将 所 有 内 容 都 保存 在 一 个 
文件 中 ， 简 化 了 代码 部 署 。 














3.3 ”编写 MapReduce 程 序 


在 相当 长 的 一 段 时 间 内 ， 我 们 一 直 在 使 用 和 谈论 WordCount 程 序 。 现 
在 ， 让 我 们 实际 编写 该 程序 ， 编 译 并 运行 它 ， 然 后 尝试 进行 一 些 修改 。 





3.4 实践 环节 : 设置 classpath 
为 了 网 译 任意 Hadoop 相 关 的 代码 ， 我 们 需要 参考 标准 的 Hadoop 捆 绑 
穴 。 


从 软件 分 发 包 中 添加 Hadoop-1.6.4.core.jar 至 Java classpath， 如 下 
所 示 : 


$ export CLASSPATH=.:${HADOOP_ HOME}/Hadoop-1.0.4.core.jar:${CLASSPATH} 





原理 分 析 


上 述 命 令 显 式 地 将 Hadoop-1.6.4.core.jar 文件 与 当前 路 径 、 原 本 
CLASSPATH 坏 境 变 量 的 内 容 添加 到 classpath。 


再 次 重申 ， 把 这 个 命令 放 到 shell 局 动 文 件 或 一 个 独立 的 引用 文件 将 是 很 
好 的 选择 。 


提示 : 稍 后 ， 我 们 还 需要 将 许多 用 于 Hadoop 的 第 三 方 代 码 库 添加 到 
我 们 的 classpath， 而 且 有 一 个 快捷 方式 来 完成 这 个 工作 。 束 目前 而 
言 ， 明 确 的 将 核心 JAR 文 件 添 加 到 classpath 束 足够 了 。 





3.5 ”实践 环节 实现 WordCount 


在 第 2 章 中 ， 我 们 已 经 看 到 了 WordCount 示 例 程序 的 应 用 。 现 在 ， 我 们 
将 通过 执行 以 下 步骤 ， 探 索 使 用 Java 语 言 实 现 这 一 程序 。 


1. 在 WordCount1.java 文件 中 输入 以 下 代码 : 


import java.io.* ， 

import org.apache.hadoop.conf.Configuration ，; 

import org.apache.hadoop.fs.Path,; 

import org.apache.hadoop.io.Intwritable; 

import org.apache.hadoop.io.Text,; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.1ib,.input,.FileInputFormat; 
import org.apache.hadoop.mapreduce.1ib.output.FileOutputFormat; 


public class WordCount1 
{ 


public static class WordCountMapper 
extends Mapper 


{ 


private final static Intwritable one = new Intwritable(1); 
private Text word = new Text(); 


public void map(Object key, Text value, Context context 
) throws IOException, InterruptedException { 
String[] words = value.toString().split(" ")，; 


for (String str: words) 


word.set(str); 
context.write(word, one); 


public static class WordCountReducer 
extends Reducer { 
public void reduce(Text key, Iterable values, Context context) throws IOEXce 
int total = 0; 
for (Intwritable val : values) { 


total++ ， 


} 
} 


context.write(key, new Intwritable(total)); 


} 


public static void main(String[] args) throws Exception { 
Configuration conf = new Configuration(); 
Job job = new Job(conf, "word count"); 
job.setJarByClass(WordCount1.class); 





job.setMapperClass(WordCountMapper ,class ) ; 

job .setReducerClass(wordCcountReducer ,class ) ; 
job.setOutputkeyClass(Text.class); 
job.setOutputvValueClass(Intwritable.class); 
FileInputFormat.addInputPath(job, new Path(args[0])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 
System.exit(job.waitForCompletion(true) ? ©0 :; 1); 





2. 现在 通过 执行 下 列 命令 编译 WordCount1. java : 


原理 分 析 


这 是 我 们 实现 的 第 一 个 完整 MapReduce 作 业 。 纵 观 该 作业 的 结构 ， 你 应 
该 认 出 我 们 先前 已 经 讨论 过 的 要 素 : 在 其 主 方法 中 通过 驱动 程序 设置 的 
完整 Job 类 ， 以 内 置 类 的 形式 定义 的 Mapper 和 Reducer 。 


下 一 节 ， 我 们 将 更 详细 地 探讨 MapReduce 的 机 制 ， 但 现在 通过 阅读 前 述 
代码 思考 它 是 如 何 实现 之 前 谈 到 的 键 / 值 转换 的 。 


Mapper 类 的 输入 可 以 说 是 最 难 理解 的 ， 因 为 键 并 没有 得 到 实际 使 用 。 
该 作业 指定 TextInputFormat 作 为 输入 数据 的 格式 。 默 认 情 况 下 ， 这 种 格 
式 提 供给 mapper 的 数据 中 ， 键 指 的 是 文件 中 的 行 号 ， 值 指 的 是 该 行内 
容 。 实 际 上 ， 读 者 可 能 从 来 没有 遇 到 过 使 用 行 号 作为 键 的 mapper， 但 
TextInputFormat 提 供 了 这 样 的 映射 。 


对 于 输入 源 中 的 每 行文 本 ，mapper 都 会 执行 一 次 ， 每 次 运行 都 会 获取 该 
行内 容 并 把 它 切 分 成 词语 。 之 后 ， 它 会 使 用 Context 对 象 以 <word ,1> 
ee 《俗称 发 射 ) 。 这 些 输出 就 是 我 们 所 说 的 
K2/V2 但 。 


之 前 ， 我 们 讲 到 reducer 的 输入 是 一 个 键 和 一 组 与 该 键 对 应 的 值 。 在 map 
和 reduce 方法 之 间 发 生 了 一 些 不 可 思议 的 事 ， 将 每 个 键 对 应 的 值 收 集 
起 来 ， 现 在 我 们 不 描述 该 过 程 。Hadoop 对 每 个 键 执行 一 次 reducer， 前 面 
例子 中 的 reducer 简 单 地 统计 Iterable 对 象 中 的 数字 ， 并 以 <word， 

的 形式 给 出 每 个 词 的 输出 。 这 些 输 出 就 是 我 们 所 说 的 K3/V3 的 


总 结 一 下 mapper 和 reducer 类 的 特点 : WordCountMapper 类 以 

















Intwritable 和 Text 作为 输入 ， 然 后 以 Text 和 Intwritable 作为 输 
出 。WordCountReducer 类 的 输入 和 输出 都 是 Text 和 IntNWritable 类 
型 。 这 又 是 一 个 相当 普 遇 的 模式 ， 在 该 模式 中 map 方法 对 键 和 值 进行 了 
反 转 并 输出 一 系列 数据 对 ， 而 reducer 对 这 些 数据 对 进行 了 整合 。 


因为 有 真正 的 参数 值 ， 驱 动 在 这 里 更 有 意义 。 我 们 使 用 传 给 类 的 参数 指 
定 输入 和 输出 位 置 。 





3.6 ”实践 环节 : 构建 JAR 文 件 

在 Hadoop 集 群 中 运行 作业 之 前 ， 我 们 必须 将 所 需 的 类 文件 打包 到 一 个 
JAR 文 件 ， 该 文件 将 被 提交 给 系统 。 

用 已 生成 的 类 文件 创建 JAR 文 件 的 命令 如 下 所 示 。 


$ jar cvf wc1.jar NordCount1*Cc1ass 


原理 分 析 


在 提交 给 Hadoop 之 前 ， 我 们 必须 将 类 文件 打包 成 JAR 文 件 ， 无 论 Hadoop 
部 署 在 本 地 还 是 Elastic MapReduce。 


技巧 : 要 小 心 处 理 JAR 命 令 和 文件 路 径 。 假 如 读者 在 JAR 文 件 中 包含 
了 子 目 录 下 的 文件 ， 该 类 的 存储 路 径 可 能 与 预期 不 一 致 。 尤 其 是 当 所 
有 源 数据 都 在 该 日 录 进 行 编译 的 时 候 ， 这 种 现象 更 为 普遍 。 这 种 情况 
下 ， 可 能 需要 编写 一 个 脚本 来 改变 路 径 ， 将 所 需 文 件 转换 为 JAR 文 
件 ， 并 将 JAR 文 件 转移 到 所 需 位 置 。 














3.7 ”实践 环节 : 在 本 地 Hadoop 集 群 运行 
WordCount 

现在 ， 我 们 已 经 生成 了 类 文件 并 将 其 打包 进 了 JAR 文 件 ， 可 以 通过 执行 
下 列 步 又 运行 WordCount。 


1. 提交 新 JAR 文 件 到 Hadoop 执 行 。 


$ hadoop jar wc1.jar WordCount1 test.txt output 


2， 如 果 执 行 成 功 的 话 ， 你 会 看 到 与 前 一 章 我 们 运行 Hadoop 提 供 的 示例 
WordCount 相 似 的 输出 。 检 查 输 出 文件 ， 它 应 当 如 下 所 示 : 


$ Hadoop fs -cat output/part-F-66666 
This 1 








1 
1 
2 
1 
1 





原理 分 析 
这 是 我 们 首次 对 自己 的 代码 使 用 Hadoop JAR 命 令 。 它 有 4 个 参数 : 


1. JAR 文 件 名 ; 

2. JAR 文 件 中 的 驱动 类 名 

3. 输入 文件 在 HDFS 的 位 置 ( 本 例 中 ， 是 对 /user/Hadoop home 文件 
夹 的 相对 引用 〉; 

4. 输出 文件 夹 的 目标 位 置 〈 同 样 也 是 一 个 相对 路 径 ) 。 


技巧 只 有 在 JAR 文 件 清单 中 没有 指定 主 类 的 情况 下 ， 才 需要 驱动 类 











名 《如 本 例 中 ) 。 


3.8” 实 上 践 环 节 : 在 EMR 上 运行 WordCount 


现在 ， 我 们 将 展示 如 何在 EMR 上 运行 同样 的 JAR 文 件 。 时 刻 要 牢记 ， 这 
是 需要 付费 的 ! 


1. 访问 AWS 控 制 台 http://aws.amazon.com/console ， 登 录 并 选择 S3。 


2. 你 将 需要 两 个 桶 : 一 个 存储 JAR 文 件 ， 另 一 个 存储 作业 的 输出 。 你 
既 可 以 使 用 现 有 的 桶 也 可 以 新 建 两 个 桶 。 


3. 打开 将 用 于 存储 作业 文件 的 桶 ， 选 择 上 传 ， 并 添加 之 前 创建 的 
wcl.jar 文件 。 


4. 返回 控制 台 主 页 面 ， 之 后 通过 选择 Elastic MapReduce 进入 控制 台 
的 EMR 部 分 。 


5. 点 击 Create a New Job Flow 按钮 ， 你 会 看 到 一 个 如 下 所 示 的 熟悉 界 
面 。 








Ceabe @ Mh them: WA von onn eic en 


TF pe erg ei sen 


一 一 一 可 





ms > 


6. 第 2 章 中 ， 我 们 使 用 的 是 Hadoop 自 带 示 例 程序 ， 因 此 选择 的 是 Run 
a sample application 。 本 例 中 ， 为 了 运行 自己 的 代码 ， 我 们 需要 执 
行 不 同 的 步骤 。 首 先 ， 选 择 Run your own application 单 选 按 钮 。 


7. 在 Select a Job Type 下 拉 杠 中， 选择 Custom JAR 。 





8. 点 击 Continue 按钮 ， 你 将 看 对 一 个 新 表格 ， 如 下 图 所 示 。 
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现在 指定 该 作业 的 参数 。 在 我 们 已 上 传 的 JAR 文 件 中 ， 代 码 (尤其 是 驱 
动 类 ) 指定 了 一 些 参数 ， 例 如 Mapper 和 Reducer 类 。 


我 们 需要 提供 的 是 JAR 文 件 的 路 径 及 作业 的 输入 和 输出 路 径 。 在 JAR 
Location 区 域 ， 输 入 已 上 传 的 JAR 文 件 的 位 置 。 假 如 JAR 文 件 命名 
为 wc1.jar ， 并 且 上 传 到 了 名 为 mybucket 的 桶 中 ， 那 么 路 径 应 

为 mybucket/wc1.jar. 


在 JAR Arguments 区 域 ， 需 要 键入 主 类 的 名 称 及 作业 的 输入 和 输出 位 
置 。 对 于 S3 上 的 文件 ， 我 们 可 以 使 用 形 如 
s3://bucketname/objectname 的 URL。 点 击 Continue 按钮 ， 为 作业 
流 选 用 虚拟 机 的 熟悉 界面 出 现 了 ， 如 下 图 所 示 。 
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现在 ， 继 续 完 成 作业 的 安装 和 执行 ， 就 如 我 们 在 第 2 章 所 做 的 那样 。 


原理 分 析 


在 EMR 上 上， 我 们 可 以 重用 为 本 地 Hadoop 和 集群 所 写 的 代码 ， 这 点 值得 特 
别 注意 。 此 外 ， 除 了 前 面 这 几 个 步骤 ， 不 管 要 执行 的 作业 代码 的 源 文件 
是 什么 ，EMR 控 制 台 的 大 部 分 设置 都 是 一 样 的 。 


在 本 章 剩 余部 分 ， 我 们 不 会 明确 展示 正在 EMR 上 执行 的 代码 ， 而 是 将 更 
多 地 关注 本 地 集群 ， 因 为 在 EMR 上 运行 JAR 文 件 是 很 容易 的 。 








3.8.1 0.20 之 前 版 本 的 Java MapReduce API 


本 书 优先 使 用 0.20 及 以 上 版 本 的 MapReduce Java API， 但 是 基于 下 面 两 
个 原因 ， 我 们 需要 快速 浏览 一 下 旧 API。 


1. 许多 在 线 示例 和 其 他 参考 材料 是 用 日 API 编写 的 。 


2. MapReduce 框 染 的 大 干 内 容 还 没有 移植 到 新 API， 我 们 不 得 不 使 用 
旧 API 来 研究 这 些 内 容 。 


旧版 API 类 主要 在 org.apache.hadoop.mapred 包 中 。 
新 版 API 类 使 用 具体 的 Mapper 和 Reducer 类 ， 而 旧版 API 倾 向 于 使 用 抽 








象 类 和 接口 。 


Mapper 类 的 实现 继承 了 MapReduceBase 抽象 类 并 实现 了 Mapper 接 
口 ， 而 一 个 自 定 义 的 Reducer 类 将 继承 相同 的 MapReduceBase 抽象 
类 ， 但 实现 了 Reducer 接口 。 


由 于 MapReduceBase 的 功能 是 处 理 作 业 设 置 与 配置 ， 它 不 是 理解 
MapReduce 模型 的 核心 内 容 ， 所 以 我 们 不 会 讨论 其 太 多 的 细节 。 但 0.20 
之 前 版 本 的 Mapper 和 Reducer 的 接口 是 值得 一 看 的 。 


public interface Mapper<K1，V1，K2，V2> 


{ 
void map( K1 key, V1 value, OutputCollector< K2, V2> output, Reporter repor 


} 


public interface Reducer<K2, V2, K3, V3> 


void reduce( K2 key, Iterator<V2> values, 
OutputCollector<k3, V3> output, Reporter reporter) 
throws IOException ; 


} 





这 里 需要 理解 下 列 几 点 内 容 。 


。 OutputCollector 类 的 泛 型 参数 更 明确 地 展示 了 上 述 方法 的 结 
是 如 何 输出 的 。 


。 旧版 API 为 此 使 用 OutputCollector 类 ， 并 且 使 用 Reporter 类 将 
状态 和 指标 信息 写 入 Hadoop 框 架 。0.20 版 的 API 将 这 些 功能 整合 到 
了 Context 类 。 


e Reducer 接口 使 用 Iterator 对 象 代 蔡 Iterable 对 象 。 这 个 变化 
产生 的 原因 是 后 者 更 符合 Java 语 法 而 且 使 得 代码 更 简洁 。 


。 在 旧版 API 中 ， 无 论 是 map 方法 还 是 reduce 方法 都 能 抛 出 
InterruptedException 异常 。 


如 你 所 见 ， 不 同 版 本 的 API 发 生 的 变化 改变 了 MapReduce 程 友 的 编写 方 











式 ， 但 不 会 改变 mapper 或 reducer 的 用 途 或 功能 。 除 非 需要 ， 不 要 觉 和 
必须 成 为 这 两 套 API 的 专家 。 熟 悉 任 意 一 套 API 都 能 跟 上 本 书 剩 余部 
的 内 容 。 


3.8.2 ”Hadoop 提 供 的 mapper 和 reducer 实 现 


我 们 并 非 总 是 必须 从 头 开 始 编写 自己 的 Mapper 和 Reducer 类 。Hadoop 
提供 了 几 种 常见 的 Mapper 和 Reducer 的 实现 ， 它 们 可 以 用 于 我 们 的 作 
业 当 中 。 如 果 我 们 不 重 写 新 版 API 的 Mapper 和 Reducer 类 的 任何 方 
法 ， 默 认 的 实现 是 恒 等 的 Mapper 和 Reducer 类 ， 即 仅仅 将 输入 原封 不 
动 地 输出 。 

需要 注意 的 是 ， 随 着 时 间 的 推移 ， 可 能 会 有 更 多 的 预先 写 好 的 Mapper 
和 Reducer 类 加 入 到 Hadoop API 中 。 目 前 ， 新 版 API 中 预先 写 好 的 
Mapper 和 Reducer 类 的 数量 不 如 旧版 API 多 。 


mapper 可 以 在 org.apache.hadoop.mapreduce.1ib.mapper 找到 ， 并 
包含 以 下 内 容 。 


。 InverseMapper: 该 类 输出 〈value，key) 。 
。 TokenCounterMapper: 它 对 输入 的 每 行文 本 的 离散 令 牌 进行 计数 。 


reducer 可 以 在 org.apache.hadoop.mapreduce.1ib.reduce 找到 ， 目 
前 包含 以 下 内 容 。 


。 IntSumReducer: 它 输出 每 个 键 对 应 的 整数 值 列表 的 总 和 。 
。 LongSumReducer: 它 输 出 每 个 键 对 应 的 长 整 型 值 列表 的 总 和 。 


3.9 ”实践 环节 :， WordCount 的 简易 方法 
让 我 们 重 温 WordCount， 但 这 次 使 用 一 些 预 定义 的 map 和 reduce 类 : 


1. 新 建 一 个 包含 下 列 代 码 的 WordCountPredefined.java 文件 : 


import org.apache.hadoop.conf.Configuration ; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.1ib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.1ib.output.FileOutputFormat; 
import org.apache.hadoop.mapreduce.1ib.map.TokenCounterMapper; 
import org.apache.hadoop.mapreduce.1ib.reduce.IntSumReducer:; 


public class WordCountPredefined 
{ 
public static void main(String[] args) throws Exception 
{ 
Configuration conf = new Configuration(); 
Job job = new Job(conf, "word count1"); 
job.setJarByClass(WordCountPredefined.class); 
job .setMapperClass(TokenCounterMapper .class) ; 
job .setReducerClass(IntSumReducer .class) ; 
job .setOutputKeyClass(Text.class) ; 
job.setOutputValueClass(IntWritable.class); 
FileInputFormat.addInputPath(job, new Path(args[06])); 
FileOutputFormat.setOutputPpath(job, new Path(args[1])); 
System.exit(job.waitForCompletion(true) ? 0 : 1); 





2. 现在 ， 编译 上 述 文件 ， 创 建 JAR 文 件 ， 并 和 之 前 一 样 运行 它 。 


3. 如 果 想 要 使 用 相同 的 输出 位 置 ， 别 忘 了 要 在 运行 作业 之 前 删除 输出 
目录 。 例 如 ， 使 用 hadoop fs -rmr output 。 


原理 分 析 


由 于 MapReduce 普 裔 使 用 WordCount 作 为 入 门 示 例 ， 即 便 使 用 预定 义 的 
Mapper 和 Reducer 实现 整个 WordCount 方 案 ， 可 能 也 不 会 令 人 惊 
讶 。TokenCounterMapper 类 仅仅 将 每 行 输入 切 分 为 一 系列 的 

(token，1 ) 对 ， IntSumReducer 类 通过 累加 每 个 键 对 应 值 的 数量 提 
供 一 个 最 终 计数 。 


这 里 要 注意 两 点 重要 内 容 。 


。 虽然 对 预定 义 的 Mapper 和 Reducer 来 讲 ， 使 用 它们 实现 WordCount 无 
疑 是 发 舞 人 心 的 ， 但 它们 并 非 专 用 于 WordCount 程 序 ， 而 是 可 以 被 
广泛 使 用 的 。 


。 复 用 现 有 的 mapper 和 reducer 是 需要 牢记 的 经 验 。 尤 其 是 ， 通 稍 实 现 
一 个 新 MapReduce 作 业 的 最 好 起 点 ， 往 往 是 改动 现 有 的 作业 。 





3.10 ”查看 WordCount 的 运行 全 貌 


为 了 更 详细 地 探讨 mapper 和 reducer 之 间 的 关系 ， 并 揭示 Hadoop 的 一 些 内 
部 工作 机 理 ， 现 在 我 们 将 全 景 呈现 WordCount 〈 或 任意 MapReduce 作 
业 ) 是 如 何 执行 的 。 


3.10.1 启动 


调用 驱动 中 的 Job.waitForCompletion() 是 所 有 行动 的 开始 。 该 驱动 
程序 是 唯一 一 段 运行 在 本 地 机 器 上 的 代码 ， 上 述 调用 开启 了 本 地 主机 与 
JobTracker 的 通信 。 请 记 住 ，JobTracker 负 责 作 业 调 度 和 执行 的 各 个 方 
面 ， 所 以 当 执 行 任何 与 作业 管理 相关 的 任务 时 ， 它 成 为 了 我 们 的 主要 接 
口 。JobTracker 代 表 我 们 与 NameNode 通 信 ， 并 对 储存 在 HDFS 上 的 数据 
相关 的 所 有 交互 进行 管理 。 


3.10.2 ”将 输入 分 块 


这 些 交 互 首先 发 生 在 JobTracker 接 受 输入 数据 ， 并 确定 如 何 将 其 分 配给 
map 任 务 的 时 候 。 回 想 一 下 ，HDFS 文 件 通常 被 分 成 至 少 64 MB 的 数据 
块 ，JobTracker 会 将 每 个 数据 块 分 配给 一 个 map 任 务 。 


当然 ，WordCount 示 例 涉 及 的 数据 量 是 微不足道 的 ， 它 刚好 适合 放 在 一 
个 数据 块 中 。 设 想 一 个 更 大 的 以 TB 为 单位 的 输入 文件 ， 切 分 模型 变 得 
更 有 意义 。 每 段 文件 (或 用 MapReduce 术 语 来 讲 ， 每 个 split ) 由 一 个 

map 作 业 处 理 。 


一 旦 对 各 分 块 完 成 了 运算 ，JobTracker 就 会 将 它们 和 包含 Mapper 
与 Reducer 类 的 JAR 文 件 放置 在 HDFS 上 作业 专用 的 目录 ， 而 该 路 径 在 
任务 开始 时 将 被 传递 给 每 个 任务 。 


3.10.3 ”任务 分 配 
一 旦 JobTracker 人 确定 了 所 需 的 map 任 务 数 ， 它 就 会 检查 集群 中 的 主机 


数 ， 正 在 运行 的 TaskTracker 数 以 及 可 并 发 执行 的 map 任 务 数 〈 用 户 自 定 
义 的 配置 变量 ) 。JobTracker 也 会 查看 各 个 输入 数据 块 在 集群 中 的 分 布 








位 置 ， 并 尝试 定义 一 个 执行 计划 ， 使 TaskTracker 尽 可 能 处 理 位 于 相同 物 
理 主机 上 的 数据 块 。 或 者 即使 做 不 到 这 一 点 ，TaskTracker 至 少 人 处理 一 个 
位 于 相同 硬件 机 架 中 的 数据 块 。 


数据 局 部 性 优化 是 Hadoop 能 高 效 处 理 巨 大 数据 集 的 一 个 关键 原因 。 还 记 
得 ， 默 认 情 况 下 ， 每 个 数据 块 会 被 复制 到 三 台 不 同 的 主机 。 所 以 ， 在 本 
地 处 理 大 部 分 数据 块 的 任务 /主机 计划 比 起 初 预 想 的 可 能 性 更 高 。 


3.10.4 任务 局 动 


然后 ， 每 个 TaskTracker 开 局 一 个 独立 的 Java 虚 拟 机 来 执行 任务 。 这 确实 
增加 了 局 动 时 间 损 失 ， 但 它 将 因 错 误 运 行 map 或 reduce 任 务 所 引发 的 问 
题 与 TaskTracker 隐 离开 来 ， 而 且 可 以 将 它 配 置 成 在 随后 执行 的 任务 之 间 
闪 哇 。 

如 果 集 群 有 足够 的 能 力 一 次 性 执行 所 有 的 map 任 务 ， 它 们 将 会 被 全 部 局 
动 ， 并 获得 它们 将 要 处 理 的 分 块 数据 和 作业 JAR 文 件 。 每 个 TaskTracker 
随后 将 分 块 复制 到 本 地 文件 系统 。 


如 果 任 务 数 超过 了 集群 能 力 ，JobTracker 将 维护 一 个 挂 起 任务 队列 ， 并 
在 节点 完成 最 初 分 配 的 map 任 务 后 ， 将 挂 起 任务 分 配给 节点 。 


现在 ， 我 们 准备 查看 map 任 务 执 行 完毕 的 数据 。 听 起 来 工作 量 似乎 很 
大 ， 事 实 确实 如 此 。 这 也 解释 了 在 运行 任意 MapReduce 作 业 时 ， 为 什么 
系统 司 动 及 执行 上 述 步骤 会 花费 大 量 时间 。 








3.10.5 不断 监 视 JobTracker 


现在 ，JobTracker 等 待 TaskTracker 执 行 所 有 的 mapper 和 reducer。 它 不 断 
地 与 TaskTracker 交 换 心 跳 和 状态 消息 ， 碍 找 进度 或 问题 的 证 据 。 它 还 从 
整个 作业 执行 过 程 的 所 有 任务 中 收集 指标 ， 其 中 一 些 指 标 是 Hadoop 提 供 
的 ， 还 有 一 些 是 map 和 reduce 任 务 的 开发 人 员 指 定 的 ， 不 过 本 例 中 我 们 
没有 使 用 任何 指标 。 


3.10.6 ”mapper 的 输入 
在 第 2 章 中 ，WordCount 的 输入 是 一 个 仅 有 一 行内 容 的 文本 文件 。 在 本 


节 剩 余部 分 ， 假 设 输入 文件 是 一 个 极为 普通 的 两 行文 本 文件 。 


This is a test 
Yes this is 





驱动 类 使 用 TextInputFormat 指 定 了 输入 文件 的 格式 和 结构 ， 因 此 ， 
Hadoop 会 把 输入 文件 看 做 以 行 号 为 键 并 以 该 行内 容 为 值 的 文本 。 因 此 
mapper 的 两 次 调用 将 被 赋予 以 下 输入 。 


1 This is a test 
2 Yes it is. 





3.10.7 ” mapper 的 执行 
根据 作业 配置 的 方式 ，mapper 接 收 到 的 键 / 值 对 分 别 是 相应 行 在 文件 中 











的 偏 移 量 以 及 该 行内 容 。 因 为 我 们 不 关心 每 行文 本 在 文件 中 的 位 置 ， 所 
以 WordCountMapper 类 的 map 方法 舍弃 了 键 ， 并 使 用 标准 的 Java String 
类 的 split 方法 将 每 行文 本 内 容 拆 分 成 词 。 需 要 注意 的 是 ， 使 用 正则 表 
达 式 或 StringTokenizer 类 可 以 更 好 地 断 词 ， 但 对 于 我 们 的 需求 ， 这 
种 简单 的 方法 就 足够 了 。 


然后 ， 针 对 每 个 单独 的 词 ，mapper 输 出 由 单词 本 号 组 成 的 键 和 值 1。 


技巧 : 我 们 加 入 了 一 些 优 化 措施 ， 但 现在 不 必 对 其 考虑 太 多 。 读 者 

会 看 到 ， 我 们 并 不 是 每 次 创建 包含 值 1 的 IntWritable 对 象 ， 而 是 以 
静态 变量 的 形式 创建 IntWritable 对 象 ， 并 在 每 次 调用 时 复 用 该 对 

象 。 类 似 地 ， 我 们 使 用 一 个 Text 对 象 并 在 每 次 执行 函数 时 重 置 其 内 

容 。 这 样 做 的 原因 是 ， 尽 管 它 对 我 们 小 型 的 输入 文件 帮助 不 大 ， 但 处 
理 巨大 数据 集 时 ， 可 能 会 对 mapper 进 行 成 千 上 万 次 调用 。 如 果 每 次 调 
用 都 为 输出 的 键 和 值 创 建 一 个 新 对 象 ， 这 将 消耗 大 量 的 资源 ， 同 时 垃 
圾 回收 会 引发 更 频繁 的 停 清 。 我 们 使 用 这 个 值 ， 知 道 Context .write 
方法 不 会 对 其 进行 改动 。 














3.10.8 mapper 的 输出 和 reducer 的 输入 


mapper 的 输出 是 一 系列 形式 为 (word,1) 的 键 值 对 。 本 例 中 ，mapper 
的 输出 为 : 


(This,1), (is, 1), (a, 1), (test., 1), (Yes, 1), (it, 1), (is, 1) 





这 些 从 mapper 输 出 的 键 值 对 并 不 会 直接 传 给 reducer。 在 map 和 reduce 之 
间 ， 还 有 一 个 shuffle 阶 段 ， 这 也 是 许多 MapReduce 奇 迹 发 生 的 地 方 。 


3.10.9 “分 块 


Reduce 接口 的 隐 性 保证 之 一 是 ， 与 给 定 键 相 关 的 所 有 值 都 会 被 提交 到 
同一 个 reducer。 由 于 一 个 集群 中 运行 着 多 个 reduce 任 务 ， 因 此 ， 每 个 
mapper 的 输出 必须 被 分 块 ， 使 其 分 别传 入 相应 的 各 个 reducer。 这 些 分 块 
文件 保存 在 本 地 节点 的 文件 系统 。 


集群 中 的 Reduce 任 务 数 并 不 像 mapper 数 量 一 样 是 动态 的 ， 事 实 上 ， 我 们 
可 以 在 作业 提交 阶段 指定 reduce 任 务 数 。 因 此 ， 每 个 TaskTracker 就 知道 
集群 中 有 和 多少 个 reducer， 并 据 此 得 知 mapper 输 出 应 切 分 为 多 少 块 。 


提示 : ”在 后 续 章 节 中 ， 我 们 会 介绍 故障 容忍 ， 但 现在 明显 的 问题 
是 ， 假 如 reducer 失 败 了 ， 会 给 本 次 计算 带 来 什么 影响 呢 ? 答案 是 ， 
JobTracker 会 保证 重新 执行 发 生 故 障 的 reduce 任 务 ， 可 能 是 在 不 同 的 节 
点 重新 执行 ， 因 此 临时 故障 不 是 问题 。 更 为 严重 的 问题 是 ， 数 据 块 中 
的 数据 敏感 性 缺陷 或 错误 数据 可 能 导致 整个 作业 失败 ， 除 非 采 取 一 些 


手段 。 


3.10.10 ”可 选 分 块 函数 








Partitioner 类 在 org.apache.hadoop.mapreduce 包 中 ， 该 抽象 类 
具有 如 下 特征 : 


public abstract class Partitioner<Kkey, Value> 
{ 
public abstract int getPartition( Key key, Value value, 


int numPartitions) ; 


} 





默认 情况 下 ，Hadoop 将 对 输出 的 键 进行 哈 希 运算 ， 从 而 实现 分 块 。 此 功 
能 由 org. apache.hadoop.mapreduce.1ib.partition 包 里 的 
HashPartitioner 类 实现 ， 但 某 些 情况 下 ， 用 户 有 必要 提供 一 个 自 定 





义 的 Partitioner 子 类 ， 在 该 子 类 中 实现 针对 具体 应 用 的 分 块 罗 和 辑 。 
特别 是 当 应 用 标准 哈 希 函数 导致 数据 分 布 极 不 均 义 时 ， 目 定 
义 Partitioner 子 类 尤为 必要 。 


3.10.11 reducer 类 的 输入 


reducer 的 TaskTracker 从 JobTracker 接 收 更 新 ， 这 些 更 新 指明 了 集群 中 哪 
些 节点 承载 着 map 的 输出 分 块 ， 这 些 分 块 将 由 本 地 reduce 任 务 处 理 。 之 
后 ，TaskTracker 从 各 个 节点 获取 分 块 ， 并 将 它们 合并 为 一 个 文件 反馈 给 
reduce 任 务 。 


3.10.12 reducer 类 的 执行 


我 们 实现 的 NordCountReducer 类 很 简单 。 针 对 每 个 词 ， 该 类 仅 对 数组 
中 的 元 素数 目 进 行 统 计 并 为 每 个 词 输出 最 终 的 (Word，count) 键 值 
对 。 


技巧 : 不 必 为 避免 创建 多 余 对 象 而 过 多 地 考虑 采取 一 些 优化 措施 。 
reducer 的 调用 次 数 通 常 小 于 mapper 的 调用 次 数 ， 因 此 调用 reducer 带 来 
的 开销 无 需 特别 在 意 。 然 而 ， 假 如 读者 有 痢 非 常 严 格 的 性 能 要 求 ， 那 
么 您 可 以 采取 任何 有 利于 提高 性 能 的 措施 。 


我 们 调用 WordCount 处 理 示例 输入 ， 除 is 出 现 两 次 外 ， 其 余 所 有 词 仅 出 
现 一 次 。 


提示 : 请 注意 ,this 和 This 分 别 进行 了 计数 ， 这 是 因为 我 们 并 不 打 
算 忽 略 大 小 写 。 类 似 地 ， 每 个 句子 以 句号 结尾 ， 这 个 规则 可 能 干扰 is 
的 值 ， 因 为 is 与 is.. 并 不 相同 。 在 处 理 文本 数据 时 ， 对 大 写 、 标 点 
从 写 、 连 字符 、 页 码 及 其 他 方面 都 要 特别 小 心 ， 因 为 这 些 东 西 可 以 误 











导数 据 的 理解 方式 。 在 这 些 情况 下 ， 通 常 需要 一 个 先期 的 MapReduce 
作业 对 数据 集 执 行 标准 化 或 清理 策略 。 


3.10.13 ”reducer 类 的 输出 
因此 ， 本 例 中 reducer 的 最 终 输出 集合 为 : 


(This, 1), (is, 2), (a, 1), (test, 1), (Yes, 1), (this, 1) 








这 些 数据 将 被 输出 到 驱动 程序 指定 的 输出 路 径 下 的 分 块 文件 中 ， 并 将 使 
用 指定 的 OutputFormat 对 其 进行 格式 化 。 每 个 reduce 任 务 写 入 一 个 以 
part-r-nnnnn 为 文件 名 的 文件 ， 其 中 nnnnn 从 e688 开始 并 逐步 弟 
增 。 当 然 ， 这 些 内 容 曾 在 第 2 章 讲 到 ， 和 希望 part 前 绥 现 在 稍微 容易 理 
解 一 些 。 


3.10.14 关机 


一 旦 成 功 完 成 所 有 任务 ，JobTracker 同 客户 端 输出 作业 的 最 终 状 态 ， 以 
及 作业 运行 过 程 中 一 些 比 较 重要 的 计数 器 集合 。 完 整 的 作业 和 任务 历史 
记录 存储 在 每 个 节点 的 日 志 路 径 中 ， 通 过 JobTracker 的 网 络 用 户 接 口 更 
易于 访问 ， 只 需 将 浏览 器 指向 JobTracker 节 点 的 50 030 端 口 即 可 。 














3.10.15 ”这 就 是 MapReduce 的 全 部 


如 你 所 见 ，Hadoop 为 每 个 MapReduce 程 序 提 供 了 大 量 机 制 ， 同 时 ， 
Hadoop 提 供 的 框架 在 许多 方面 都 进行 了 简化 。 如 前 所 述 ， 对 于 
WordCount 这 样 的 小 程序 来 说 ，MapReduce 的 大 部 分 机 制 并 没有 多 大 价 
值 ， 但 是 不 要 忘 了 ， 无 论 在 本 地 Hadoop 或 EMR， 我 们 可 以 使 用 相同 的 
软件 和 mapperreducer 在 巨大 的 集群 上 对 更 大 的 数据 集 进 行 字数 统计 。 
那 时 ，Hadoop 所 做 的 大 量 工作 使 用 户 能 够 在 如 此 大 的 数据 集 上 进行 数据 
人 和 ， 手 工 实现 代码 分 发 、 代 码 同 步 以 及 并 行 运算 将 付出 超 乎 想 
A 努 大 


3.10.16 ”也 许 缺 了 combiner 








前 面 讲 述 了 MapReduce 程 序 运 行 的 各 个 步骤 ， 却 漏 反 了 另外 一 个 可 选 步 
又 。 在 reducer 获 取 map 方 法 的 输出 之 前 ，Hadoop 人 允许 使 用 combiner 类 对 
map 方法 的 输出 执行 一 些 前 期 的 排序 操作 。 


为 什么 要 有 combiner 


Hadoop 设 计 的 前 提 是 ， 减 少 作 业 中 成 本 较 高 的 部 分 ， 通 常 指 磁盘 和 网 络 
输入 输出 。mapper 的 输出 往往 是 巨大 的 它 的 大 小 通常 是 原始 输入 数 
据 的 许多 倍 。Hadoop 的 一 些 配置 选项 可 以 帮助 减少 reducer 在 网 络 上 传输 
如 此 大 的 数据 量 所 带 来 的 性 能 影响 。combiner 则 采取 了 不 同 的 方法 ， 它 
对 数据 进行 早期 聚合 以 减少 所 需 传 输 的 数据 量 。 


combiner 没 有 自己 的 接口 ， 它 必须 具有 与 reducer 相 同 的 特征 ， 因 此 也 要 
继承 org.apache.hadoop. mapreduce 包 里 的 Reduce 类 。 这 样 做 的 效 
果 主 要 是 ， 在 map 节 点 上 对 发 往 各 个 reducer 的 输出 执行 mini-reduce 操 

人 


Hadoop 不 保证 combiner 是 否 被 执行 。 有 时 候 ， 它 可 能 根本 不 执行 ， 而 某 
些 时 候 ， 它 可 能 被 执行 一 次 、 两 次 甚至 多 次 ， 这 取 雇 于 mapper 为 每 个 
reducer 生 成 的 输出 文件 的 大 小 和 数量 。 




















3.11 实践 环节 :， 使 用 combiner 编 写 WordCount 


让 我 们 在 第 一 个 WordCount 示 例 程序 中 加 入 combiner。 事 实 上 ， 我 们 可 
以 使 用 reducer 作 为 combiner。 因 为 combiner 必 须 具 有 和 reducer 相 同 的 接 
口 ， 所 以 经 常会 看 到 使 用 reducer 作 为 combiner 的 情况 ， 但 要 注意 ， 包 含 
在 reducer 中 的 处 理 类 型 将 确定 其 是 否 可 用 作 combiner， 稍 后 我 们 将 讨论 
这 个 问题 。 由 于 我 们 试图 统计 单词 出 现 的 次 数 ， 可 以 在 map 节 点 进行 部 
分 计数 ， 并 将 这 些 结 果 传 给 reducer。 





1. 复制 NordCount1.java ， 保 存 为 NordCount2.Jjava ， 并 
在 Mapper 和 Reducer 类 定义 之 间 加 入 下 列 内 容 来 修改 驱动 类 。 


job.setCombinerClass(WordCountReducer .class); 





2， 修 改 类 名 为 NordCount2 并 编译 。 


$ javac WordCount2.java 





3. 创建 JAR 文 件 。 


$ jar cvf wc2.jar WordCount2*class 





4. 在 Hadoop 上 运行 作业 。 


$ hadoop jar wc2.jar WordCount2 test.txt output 





5. 检查 输出 。 





$ hadoop fs -cat output/part-r-6660060 


原理 分 析 


I 因为 is 出 现 了 两 次 ， 其 值 却 被 错误 统 
计 为 1。 


问题 在 于 combiner 与 reducer 的 交互 方式 。 提 交 给 reducer 的 值 ， 之 前 

是 (is，1，1) ， 现 在 却 是 (is，2) ， 这 是 因为 combiner 对 每 个 词 的 出 
现 次 数 自行 进行 合并 。 然 而 ，reducer 并 没有 看 到 Iterable 对 象 中 的 真 
正 值 ， 它 仅 对 combiner 提 区 的 数据 进行 了 统计 。 


使 用 reducer 作 为 combiner 的 条 件 


编写 combiner 时 要 特别 留心 。 请 记 住 ，Hadoop 不 保证 combiner 补 应 用 到 
map 输 出 的 次 数 ， 可 能 根本 不 执行 ， 也 可 能 执行 1 次 或 者 多 次 。 因 此 ， 
关键 问题 在 于 ， 由 combiner 执 行 的 操作 是 人 否 可 被 如 此 应 用 。 分 布 式 的 操 
作 ， 如 总 和 、 加 法 或 类 似 操 作 通 常 是 安全 的 ， 但 是 ， 如 前 所 示 ， 务 必 确 
保 reduce 逻 辑 不 包含 可 能 破坏 这 个 特性 的 隐 舍 假设 。 





3.12 ”实践 环节 : 更 正 使 用 combiner 的 WordCount 
让 我 们 对 WordCount 做 一 些 必要 的 修改 ， 以 正确 使 用 combiner。 


将 WordCount2.java 复制 为 名 为 NordCount3.java 的 新 文件 ， 并 
将 reduce 方法 改 为 如 下 内 容 : 
public void reduce(Text key, Iterable<IntWritable> values, Context context) 


int total = 60; 
for (IntWritable val : values)) 


{ 
total+= val.get() ; 


context.write(key, new IntWritable(total)); 
} 





别 忘 了 ， 要 将 该 类 名 改 为 NordCount3 ， 然 后 编译 它 ， 创 建 JAR 文 件 ， 
并 和 以 前 一 样 运 行 作业 。 


原理 分 析 


现在 ， 输 出 与 预期 一 致 。map 端 对 combiner 的 调用 全 部 执行 成 功 ， 同 
时 ，reducer 生 成 的 输出 值 全 都 正确 。 


技巧 : 假如 原来 的 reducer 被 用 作 combiner 而 新 的 reducer 被 用 作 
reducer，WordCount 程 序 会 工作 正常 吗 ? 答案 是 否定 的 ， 但 是 我 们 的 
测试 样 例 无 法 说 明 这 一 点 。 由 于 combiner 可 能 会 在 map 输 出 数据 上 调 
用 多 次 ， 如 果 数 据 集 足 够 大 的 话 ， 同 样 的 错误 会 多 次 出 现在 map 输 出 
中 ， 但 是 由 于 此 处 输入 数据 规模 小 ， 错 误 没 有 显现 出 来 。 从 根本 上 
讲 ， 原 来 的 reducer 是 错误 的 ， 但 其 错误 并 不 明显 ， 要 小 心 此 类 细微 的 
逻辑 缺陷。 事实 上 ， 这 类 问题 难以 调试 ， 因 为 代码 在 开发 机 上 的 数据 
集 的 子 集 工作 正常 ， 却 在 更 大 的 业务 集群 上 发 生 故 障 。 要 仔细 推敲 
combiner 类 ， 而 不 能 完全 依赖 于 处 理 小 样本 数据 的 测试 。 








复 用 助 您 一 辟 之 力 


在 前 面 章节 中 ， 我 们 使 用 了 现 有 的 作业 类 文件 并 对 其 进行 了 改动 。 这 是 
一 个 非常 常见 的 Hadoop 开 发 流程 的 小 例子 使 用 现 有 的 作业 文件 作为 
开发 新 作业 的 起 点 。 虽 然 新 作业 的 mapper 和 reducer 逻 辑 与 现 有 作业 相去 
甚 远 ， 但 使 用 现 有 作业 通常 能 够 节省 时 间 ， 因 为 它 能 够 帮 您 记 住 实现 
mapper、reducer 和 驱动 所 必须 的 元 素 。 





随 党 测验: MapReduce 的 结构 
问题 1 你 必须 为 MapReduce 作 业 指 定 哪些 内 容 ? 
1. mapper 和 reducer 类 。 

2. mapper、reducer 和 combiner 类 。 

3. mapper、reducer、partitioner 和 combiner 类 。 
4. 什么 都 不 需要 ， 所 有 类 都 有 默认 实现 。 
问题 2 Combiner 会 被 执行 多 少 次 ? 

1. 至 少 1 次 。 

2. 0 次 或 1 次 。 

3. 0 次 、1 次 或 多 次 。 

4. 这 是 可 配置 的 。 
问题 3 有 一 个 mapper 为 每 个 键 生成 一 个 整数 值 ， 下 面 是 reduce 操 作 。 
。 Reducer A: 输出 整数 值 集合 的 总 和 。 

。 Reducer B: 输出 值 集合 中 的 最 大 值 。 

。 Reducer C: 输出 值 集合 的 平均 值 。 














。 Reducer D: 输出 集合 中 最 大 值 与 最 小 值 之 差 。 
这 些 reduce 操 作 中 ， 哪 个 可 被 安全 地 用 作 combiner? 

1. 全 部 。 

2. A 和 B。 

3. A、B 和 D。 

4.C 和 D。 

5. 都 不 可 以 。 


3.13 ”Hadoop 专 有 数据 类 型 


截至 目前 ， 我 们 已 经 草草 了 解 了 用 作 map 和 reduce 类 的 输入 和 输出 的 数 
据 类 型 。 现 在 ， 让 我 们 研究 一 下 这 些 数据 类 型 。 


3.13.1 Writable 和 WritableComparable 接 口 

如 果 浏 览 org.apache.hadoop.io 包 的 Hadoop API， 读 者 会 发 现 一 些 
熟悉 的 类 带 有 Writable 词 级 ， 这 些 类 包括 Text 、Intwritable 及 其 
他 。 


org.apache.hadoop.io 也 包含 了 Writable 接口 的 定义 ， 其 定义 如 
下 


import java.io.DataInput ; 
import java.io.DataOutput ; 
import java.io.IOException ; 


public interface Writable 
{ 
void write(DataOutput out) throws IOException ; 

void readFields(DataInput in) throws IOException ; 


} 





Writable 接 口 的 主要 目的 是 ， 当 数据 在 网 络 上 传输 或 从 硬盘 读 写 时 ， 提 
供 数 据 的 序列 化 和 反 序 列 化 机 制 。 所 有 用 作 mapper 或 reducer 输 入 或 输出 
值 的 数据 类 型 (也 就 是 说 ，V1 、V2 或 V3 ) 都 必须 实现 这 个 接口 。 


用 作 键 的 数据 〈K1，K2，K3) 有 着 更 为 严格 的 要 求 : 除 Nritable 之 
外 ， 它 必须 实现 标准 Java 中 的 Comparable 接口 : 





public interface Comparable 


public int compareTO( Object obj); 
} 


[LU | 


compare 方 法 的 返回 值 为 -1 、68 或 者 1 ， 这 取决 于 被 比较 的 对 象 小 于 、 
等 于 或 大 于 当前 对 象 。 


作为 一 个 便 用 接口 ，Hadoop 在 org.apache.hadoop.io 包 里 提供 了 一 
个 WritableComparable 接口 。 


public interface WritableComparable extends Writable, Comparable 


{} 





3.13.2” wrapper 类 介绍 


幸运 的 是 ， 你 不 必 从 头 开 始 。 正 如 你 所 看 到 的 ，Hadoop 提 供 了 包装 Java 
原始 类 型 并 实现 WritableComparable 的 类 。 它 们 被 放置 
在 org.apache.hadoop.io 包 。 


1. 原始 包装 类 

这 些 类 在 概念 上 与 原始 包装 类 相似 ， 如 java.lang 中 的 Integer 和 
Long 。 它 们 保持 一 个 原始 值 ， 该 值 既 可 以 在 创建 类 的 时 候 设 置 ， 也 可 
以 通过 setter 方 法 设置 。 


e BooleanWritable 


ByteWritable 


e DoubleWiritable 


FloatWritable 


IntWritable 
。 LongWritable 


。 VIntWritable: 可 变 长 度 的 整数 类 型 


。 VLongWritable: 可 变 长 度 的 长 整数 类 型 
2. 数组 包装 类 


这 些 类 为 其 他 Writable 对 象 数组 提供 了 可 写 封 装 。 例 如 ， 这 些 类 的 实 
例 可 以 存储 IntWritable 或 DoubleWritable 类 型 的 数组 ， 却 不 能 存 
储 原 始 的 整数 或 浮 点 数 类 型 的 数组 。 这 些 类 需要 继承 Writable 类 。 如 
下 所 示 : 


e。 ArrayWritable 


e。 TwoDArrayWiritable 
3. Map 包 装 类 
这 些 类 允许 使 用 java.util.Map 接口 作为 键 或 者 值 。 需 要 注意 的 是 ， 
它们 被 定义 为 Map<Writable，Writable> ， 并 有 效 管理 部 分 内 部 运行 
时 类 型 检查 。 这 就 意味 着 弱化 了 编译 类 型 检查 ， 所 以 要 当心 。 


。AbstractMapWritable : 这 是 其 他 具体 的 Writable map 包 装 类 的 
基 类 。 





。 MapWritable : 这 是 一 个 通用 的 map 包 闭 类 ， 将 Nritabjle 键 映 射 
为 Writable 值 。 


。 SortedMapWritable : 这 是 MapWritable 类 的 一 个 特殊 实现 ， 它 
同时 也 实现 了 SortedMap 接口 。 


3.14 ”实践 环 : 使 用 Writable 包 闭 类 
让 我 们 编写 一 个 类 ， 来 展示 实际 使 用 中 的 包装 类 。 
1. 创建 WritablesTest.java 文件 ， 键 入 下 列 内 容 : 


import org.apache.hadoop.io.* ， 
import java.util.* ; 





public class WritablesTest 


{ 


public static class IntArrayWritable extends ArrayWritable 


public IntArraywritable() 


{ 
} 


super(Intwritable.class) ， 


} 


public static void main(String[] args) 
{ 
System.out.printin("*** primitive Writables ***") ， 
Booleanwritable bool1 = new BooleanWritable(true) ; 
Bytewritable byte1 = new Bytewritable( (byte)3) ，; 
System.out.printf("Boolean:%s Byte:%d\n", bool1, bytei.get()).,，; 


Intwritable i1 = new Intwritable(5) ， 

Intwritable i2 = new Intwritable( 17) ， 

System., out.printf("I1:%d I2:%d\n", i1i.get(), i2.get()).,，; 
i1i.set(i2.get()).; 

System.out.printf("I1:%d I2:%d\n", i1i.get(), i2.get()).; 
Integer i3 = new Integer( 23) ，; 

I1.Set( i3) ， 

System,.out .printf("I1:%d I2:%d\n", i1i.get(), i2.get()).; 


System.out.println("*** Array Writables ***") ， 
Arraywritable a = new Arraywritable( Intwritable.class) ， 
a.set( new Intwritable[]{ new Intwritable(1), new Intwritable(3), new In 
Intwritable[] values = (Intwritable[])a.get() ; 
for (Intwritable i: values) 
System.out.printin(i) ， 
IntArrayWritable ia = new IntArraywritable() ，; 
ia.set( new Intwritable[]{ new Intwritable(1), new 
Intwritable(3), new Intwritable(5)}) ; 


Intwritable[] ivalues = (Intwritable[])ia.get().，; 


ia.set(new Longwritable[]j{tnew Longwritable(10001)}) ，; 





System.out.printin("*** Map Writables ***") ， 
Mapwritable m = new Mapwritable() ， 
Intwritable key1 = new Intwritable(5) ， 


Nullwritable value1 = Nullwritable.get().，; 
m.put(key1, value1) ，; 
System.out.printiln(m.containskey(key1)) ，; 
System.out.printlin(m.get(key1)) ; 

m.put(new Longwritable(1000000000), key1) ，; 
Set keys = m,keySet() ， 


for(Writable w: keys) 
System,out.println(w,.getClass()) ; 





2. 编译 并 运行 该 类 ， 你 会 得 到 下 列 输出 : 


*** primitive Writables *** 
Boolean:true Byte:3 

I1:5 I2:17 

I1:17 I2:17 

I1:23 I2:17 

*** Array Writables *** 

半 

3 


*** Map Writables *** 

true 

(null) 

class org.apache.hadoop.io.Longwritable 
class org.apache.hadoop.io.Intwritable 





原理 分 析 





上 述 输出 的 含义 在 很 大 程度 上 是 不 言 自明 的 。 我 们 创建 了 多 
WDD 包装 对 象 ， 并 展示 了 它们 的 一 般 用 法 。 其 中 ， 有 几 个 关键 


Wyo 





。 如 前 所 述 ，Writable 保证 了 自身 类 型 安全 性 。 因 此 ， 可 能 有 存储 
多 种 数据 类 型 的 数组 或 map， 如 上 述 示例 代码 所 示 。 


我 们 可 以 使 用 上 自动 拆 箱 ， 例 如 ， 将 一 个 Integer 对 象 提 供给 参数 
为 IntWritable 的 方法 ， 该 方法 希望 收 到 的 参数 是 一 个 int 变量 。 





。 被 用 作 reduce 函数 的 输入 ， 要 一 个 内 部 
， 必 须 定 义 一 个 带 有 默认 构造 函数 的 子 类 。 
1. 其 他 包装 类 


。 CompressedWritable : 这 是 一 个 基 类 ， 它 允许 大 型 对 象 保持 压 


缩 ， 直 到 其 属性 被 显 式 访问 。 
。 ObjectWritable : 这 是 一 个 多 用 途 的 通用 对 象 包装 类 。 


。Nullwritable : 这 是 一 个 表示 空 值 的 对 象 。 








。VersionedWritable : 这 是 一 个 允许 writable 类 跟踪 版 本 号 的 基本 
实现 。 


一 展 身 手 ; 练习 Wiritables 类 


练习 使 用 NullWritable 和 0bjectWritable 编写 类 ， 如 同 之 前 的 例 


2. 编写 目 定 义 类 


正如 读者 在 Writable 和 Comparable 接口 所 看 到 的 ， 所 需 方法 相当 简 
单 ， 如 果 读 者 想 在 MapReduce 作 业 中 使 用 自 定 义 类 作为 键 或 者 值 ， 不 必 
害怕 增加 这 样 的 功能 。 


3.15 ”输入 /输出 


我 们 已 多 次 提 到 驱动 类 的 一 个 功能 ， 却 没有 进行 详细 解释 指定 
MapReduce 作 业 的 输入 和 输出 的 数据 格式 和 结构 。 


3.15.1 文件 、split 和 记录 

我 们 已 经 讨论 过 ， 在 作业 启动 时 ， 文 件 被 切 分 为 split，split 中 的 数据 被 
送 往 mapper。 然 而 ， 却 忽视 了 两 个 方面 : 数据 在 文件 中 如 何 存 储 以 及 单 
个 键 值 如 何 传 给 mapper。 

3.15.2 InputFormat 和 RecordReader 

对 于 第 一 个 问题 ，Hadoop 提 出 了 InputFormat 的 概 


念 。org.apache.hadoop.mapreduce 包 里 的 InputFormat 抽象 类 提 
供 了 如 下 列 代码 所 示 的 两 个 方法 。 


public abstract class InputFormat<K, V> 


public abstract List<InputSplit> getSplits( JobContext context) ; 
RecordReader<K, V> createRecordReader(InputSplit split, 
TaskAttemptContext context) ; 


} 





这 些 方 法 展示 了 InputFormat 类 的 两 个 功能 : 
。 将 输入 文件 切 分 为 map 处 理 所 需 要 的 Split; 
。 创建 RecordReader 类 ， 它 将 从 一 个 split 生 成 键 值 对 序列 。 


RecordReader 类 同样 也 是 org.apache.hadoop.mapreduce 包 里 的 抽 
象 类 。 


public abstract class RecordReader<Key, Value> implements Closeable 
{ 
public abstract void initialize(InputSplit split, TaskAttemptContext 


context) ; 

public abstract boolean nextKeyValue() 
throws IOException, InterruptedException ; 
public abstract Key getCurrentkey() 
throws IOException, InterruptedException ; 
public abstract Value getCurrentValue() 
throws IOException, InterruptedException ; 
public abstract float getProgress() 
throws IOException, InterruptedException ; 
public abstract close() throws IOException ; 


} 





为 每 个 split 创 建 一 个 RecordReader 实例 ， 该 实例 调 

用 getNextKeyValue 并 返回 一 个 布尔 值 ， 该 值 指明 下 一 个 键 值 对 是 否 
可 用 。 如 果 答 案 是 肯定 的 ，getKey 和 getValue 方法 被 用 于 分 别 访问 键 
和 值 。 


因此 ， 组 合 使 用 InputFormat 和 RecordReader 可 以 将 任何 类 型 的 输入 
数据 转换 为 MapReduce 所 需 的 键 值 对 。 


3.15.3 ”Hadoop 提 供 的 InputFormat 


Hadoop 在 org.apache.hadoop.mapreduce.1ib.input 包 里 提供 了 一 
些 InputFormat 的 实现 。 


。 FileInputFormat : 这 是 一 个 抽象 基 类 ， 它 可 以 作为 任何 基于 文 
件 输入 的 父 类 。 


。 SequenceFileInputFormat : 这 是 一 个 高 效 的 二 进 制 文件 格式 ， 
我 们 将 在 下 一 讨论 它 。 


。 TextInputFormat : 它 用 于 普通 文本 文件 。 


技巧 : 0.20 之 前 版 本 的 API 在 org.apache.hadoop.mapred 包 里 定义 
了 一 些 其 他 的 InputFormat 。 


请 注意 ，InputFormat 并 不 局 限于 从 文件 读 取 数 
据 ，FileInputFormat 本 身 就 是 InputFormat 的 子 类 。Hadoop 有 可 


能 使 用 不 基于 文件 的 数据 作为 MapReduce 作 业 的 输入 ， 常 见 的 数据 源 
是 关系 数据 库 或 HBase。 


3.15.4 Hadoop 提 供 的 RecordReader 


类 似 地 ，Hadoop 在 org.apache.hadoop.mapreduce.1ib.input 包 里 
也 提供 了 一 些 常见 的 RecordReader 实现 。 


。 LineRecordReader : 这 是 RecordReader 类 对 文本 文件 的 默认 实 
现 ， 它 将 行 号 视 为 键 并 将 该 行内 容 视 为 值 。 


。 SequenceFileRecordReader : 该 类 从 二 进 制 文件 sequenceFile 
读 取 键 / 值 


同样 ，0.20 版 本 之 前 的 API 在 org.apache.hadoop.mapred 包 里 提供 了 
其 他 RecordReader 类 ， 例 如 KeyValueRecordReader ， 它 们 没有 被 迁 
移 到 新 API。 


3.15.5 OutputFormat 和 RecordWriter 


采用 类 似 模式 ，org.apache.hadoop .mapreduce 包 里 的 
OutputFormat 和 RecordWriter 的 子 类 负责 共同 写 入 作业 输出 。 本 节 
内 容 不 讨论 它们 的 细节 ， 但 总 体 方法 是 相似 的 ， 尽 管 OutputFormat 为 
验证 输出 规范 实现 了 更 为 复杂 的 API。 


技巧 : 如 果 指 定 的 输出 路 径 已 经 存在 ， 该 步骤 将 引发 作业 失败 。 如 
果 你 想 改 变 这 种 情况 ， 需 要 一 个 重 写 该 方法 的 OutputFormat 子 类 。 








3.15.6 ”Hadoop 提 供 的 OutputFormat 


org.apache.hadoop.mapreduce.output 包 提 供 了 下 列 OutputFormat 
天 o 





。 FileOutputFormat : 这 是 所 有 基于 文件 的 OutputFormat 的 基 类 。 


。 NullOutputFormat : 这 是 一 个 虚拟 类 ， 它 丢弃 所 有 输出 并 对 文件 
不 做 任何 写 入 。 





。 SequenceFileOutputFormat : 它 将 输出 写 入 二 进 
制 SequenceFile 。 


。TextOutputFormat : 它 把 输出 写 入 到 普通 文本 文件 。 


请 注意 ， 上 述 类 把 它们 所 需 的 RecordWriter 定义 为 内 部 类 ， 因 此 ， 不 
存在 单独 实现 的 RecordWriter 类 。 





3.15.7” 别 态 了 Sequence files 


org.apache.hadoop.io 包 里 的 SequenceFile 类 提供 了 高 效 的 二 进 制 
文件 格式 ， 它 经 常用 于 MapReduce 作 业 的 输出 。 尤 其 是 当 作 业 的 输出 被 
当做 另 一 个 作业 的 输入 时 。Sequence 文件 有 如 下 几 个 优点 : 


。 作为 二 进 制 文件 ， 它 们 本 质 上 比 文本 文件 更 为 紧凑 ; 


。 它们 支持 不 同 层 面 的 可 选 压缩 ， 也 就 是 说 ， 可 以 对 每 条 记录 或 整个 
split 进 行 压缩 ; 


。 该 文件 可 被 并 行 切 分 和 处 理 。 


最 后 一 个 特性 很 重要 ， 大 多 数 二 进 制 格 式 〈( 尤 其 是 压缩 或 加 密 文 件 ) 是 
无 法 切 分 的 ， 必 须 以 单独 的 线性 数据 流 的 形式 读 取 。 使 用 这 种 无 法 切 分 
的 文件 作为 MapReduce 作 业 的 输入 ， 意 味 着 需要 使 用 一 个 单独 的 mapper 
处 理 整 个 文件 ， 造 成 潜在 的 巨大 性 能 损失 。 在 此 情况 下 ， 最 好 使 用 可 切 
分 的 格式 ， 如 SequenceFile ， 或 者 在 无 法 避免 接收 其 他 格式 文件 的 情 
况 下 ， 执 行 预 处 理 步 又 将 其 转换 成 可 切 分 的 格式 。 这 需要 权衡 利 浆 ， 
为 文件 格式 转换 也 需要 一 定 的 时 间 。 但 在 很 多 情况 下 ， 尤 其 是 处 理 复杂 
的 map 任 务 时 ， 使 用 可 切 分 格式 所 节省 的 时 间 将 超过 文件 格式 转换 的 时 
间 。 




















3.16 ”小 结 


本 章 讲 述 了 MapReduce 的 大 量 基 础 知识 ， 现 在 ， 我 们 具备 了 深入 人 研究 
MapReduce 的 基础 。 特 别 是 ， 我 们 学 习 了 键 值 对 是 被 广泛 应 用 的 数据 模 
型 ， 它 可 以 很 好 地 应 用 于 MapReduce 处 理 。 我 们 也 学 习 了 如 何 使 用 0.20 
及 以 上 版 本 的 Java API 编 写 mapper 和 reducer。 


随后 ， 我 们 了 解 了 MapReduce 作 业 是 如 何 工 作 的 ， 以 及 map 与 reduce 
方法 是 怎样 通过 大 量 的 协作 和 任务 调度 机 制 紧密 结合 在 一 起 的 。 我 们 还 
了 解 到 ， 某 些 MapReduce 人 作业 需 要 自 定 义 的 partitioner 或 combiner。 


我 们 还 研究 了 Hadoop 如 何 从 文件 系统 读 取 数 据 并 将 输出 数据 写 入 文件 系 
统 。 它 使 用 InputFormat 和 OutputFormat 的 概念 将 文件 作为 整体 进行 
处 理 ， 并 使 用 RecordReader 将 数据 格式 转化 为 键 值 对 ， 然 后 使 

用 Recordwriter 将 数据 格式 从 键 值 对 转换 为 所 需 格式 。 


有 了 这 些 知 识 ， 我 们 将 在 下 一 章 转 到 案例 学 习 。 该 案例 展示 了 如 何 持续 
开发 和 改进 处 理 大 数据 集 的 MapReduce 程 序 。 








第 4 章 ”开发 MapReduce 程 序 


既然 我 们 已 经 探索 了 MapReduce 技 术 ， 本 章 将 介绍 如 何 使 用 
MapReduce 解 决 实际 问题 。 特 别 是 ， 我 们 将 以 更 大 规模 的 数据 集 为 
例 ， 探 索 使 用 MapReduce 提 供 的 工具 分 析 数 据 集 的 方法 。 


本 间 包 括 以 下 内 容 : 

。 Hadoop Streaming 及 其 使 用 ; 

。 UFO 目 击 事 件数 据 集 ; 

。 使 用 Streaming 作 为 开发 或 调试 工具 ; 

。 在 一 个 作业 中 使 用 多 个 mapper; 

。 在 集群 上 高 效 共 享 实 用 程序 文件 和 数据 ; 

。 报告 作业 和 任务 的 状态 信息 及 可 用 于 调试 的 日 志 信息 。 

本 章 不 仪 要 介绍 具体 的 工具 ， 同 时 也 要 介绍 如 何 分 析 新 数据 集 。 我 们 将 
从 探寻 如 何 使 用 脚本 编程 语言 辅助 MapReduce 进 行 原型 设计 和 初步 分 析 
入 手 。 上 一 章 还 在 讲 Java API， 本 章 却 马上 换 了 男 一 种 语言 ， 这 似乎 看 
起 来 很 奇 翌 ， 但 我 们 的 目的 是 让 读者 意识 到 ， 可 以 使 用 不 同方 法 解决 所 
面临 的 问题 。 虽 然 很 多 作业 没 必 要 用 Java API 以 外 的 其 他 语言 来 实现 ， 
但 在 某 些 情况 下 ， 使 用 其 他 方法 才 是 最 合适 的 。 相 信 这 些 技术 为 您 增加 


了 新 的 备 选 工具 ， 并 且 有 了 这 些 经验 ， 您 会 更 容易 知道 在 给 定 场景 中 ， 
哪 种 方法 才 是 最 佳 解决 方案 。 


4.1 使 用 非 Java 语 言 操 作 Hadoop 


我 们 前 面 提 到 过 ， 并 非 必须 使 用 Java 语 言 才 能 编写 MapReduce 程 序 。 虽 
然 大 多 数 程序 是 用 Java 编 写 的 ， 但 由 于 某 些 原因 ， 读 者 希望 或 需要 用 另 
一 种 语言 编写 map 和 reduce 任 务 。 比 如 ， 读 者 有 一 些 现 有 代码 可 供 利 
用 ， 或 者 需要 使 用 第 三 方 的 二 进 制 文件 等 ， 原 因 不 一 而 足 却 又 合 情 合 
理 。 


Hadoop 提 供 了 一 些 辅助 非 Java 开 发 的 机 制 ， 其 中 主要 包括 Hadoop Pipes 
和 Hadoop Streaming 。 前 者 提供 了 Hadoop 的 原生 C++ 接口 ， 后 者 则 人 允 
许 将 任何 使 用 标准 输入 和 输出 的 程序 用 于 map 和 reduce 任 务 。 本 章 ， 我 
们 将 大 量 使 用 Hadoop Streaming。 








4.1.1 Hadoop Streaming 工 作 原 理 


map 和 reduce 任 务 利 用 MapReduce Java API 提 供 实 现任 务 功 能 的 方法 。 这 
些 方法 将 其 参数 视 为 任务 输入 ， 并 通过 Context 对 象 输出 结果 。 这 是 一 
个 明确 的 并 且 类 型 安全 的 接口 ， 但 是 专 为 Java 定 义 的 。 


Hadoop Streaming 采 用 了 不 同 的 方法 。 使 用 Streaming 编 写 的 map 任 务 每 
次 从 标准 输入 读 取 一 行内 容 作 为 任务 输入 ， 并 将 任务 结果 输出 到 标准 输 
。reduce 任 务 执行 同样 的 操作 ， 而 且 其 数据 流 同 样 使 用 标准 输入 和 和 输 


任何 可 以 读 写 标准 输入 和 输出 的 程序 都 可 以 用 于 Streaming， 例 如 已 编译 
的 二 进 制 文件 、Unixshell 脚 本 ， 或 用 像 Ruby 或 Python 这 样 的 动态 语言 编 
写 的 程序 等 。 


4.1.2 ”使 用 Hadoop Streaming 的 原 


Streaming 最 大 的 优势 在 于 ， 使 用 它 可 以 比 使 用 Java 更 快 地 反复 尝试 不 同 
的 想法 。 与 “编译 /jar/ 提 交 ” 的 Java 开 发 周期 不 同 ， 用 户 只 需 编 写 脚 本 ， 
并 把 它们 作为 参数 传 给 Streaming jar 文 件 。 尤 其 是 当 对 新 数据 集 进行 初 
步 分 析 或 尝试 新 想法 的 时 候 ，Streaming 可 以 明显 加 快 开发 进度 。 


动态 语言 和 静态 语言 各 有 所 长 ， 动 态 语言 适合 敏捷 开发 ， 而 静态 语言 具 


有 运行 性 能 和 类 型 检查 的 优势 。 换 句 话 说， 静态 语言 有 的 ， 正 是 动态 语 
言 没有 的 ， 反 之 亦 然 。 当 使 用 Streaming 时 ， 动 态 语言 的 缺点 同样 存在 。 
因此 ， 我 们 倾 癌 于 在 前 期 分 析 时 使 用 Streaming， 而 在 实现 运行 于 产品 集 
群 的 作业 时 使 用 Java 语 言 。 


本 章 中 ， 我 们 将 在 Streaming 例 子 中 使 用 Ruby 语 言 ， 但 这 只 是 个 人 喜 
好 。 如 果 读 者 喜欢 用 shell 脚 本 或 其 他 语言 ， 比 如 Python， 那 么 可 以 把 
Ruby 脚 本 转换 成 自己 选择 的 语言 。 











4.2 ”实践 环节 : 使 用 Streaming 实 现 WordCount 


让 我 们 老 调 重 弹 ， 通 过 执行 下 列 步 又 使 用 Streaming 再 次 实现 
WordCount。 


1. 将 以 下 内 容 保存 为 wcmapper.rb 文件 。 


#/bin/env ruby 


while line = gets 


words = line.split("\t") 
words.each{ |word| puts word.strip+"\t1"}} 
end 





2. 通过 执行 下 列 命令 使 vcmapper.rb 成 为 可 执行 文件 。 
3. 将 以 下 文件 保存 为 wcreducer.rb。 


#1!/Uusr/bin/env ruby 


current = nil 
count = 0 


while line = gets 
word, counter = line.split("\t") 


if word == current 
count = count+1 
else 
puts current+"\t"+count.to_s if current 
current = word 
count = 1 
end 
end 
puts current+"\t"+count.to_s 





4. 通过 执行 下 列 命令 使 wcreducer.rb 成 为 可 执行 文件 。 
5. 利用 上 一 章 的 数据 文件 ， 以 Streaming 作 业 的 形式 执行 脚本 。 


$ hadoop jar hadoop/contrib/streaming/hadoop-streaming-1.0.3.jar 
-file wcmapper.rb -mapper wcmapper.rb -file wcreducer.rb 
-reducer wcreducer.rb -input test,txt -output output 
packageJobJar: [wcmapper.rb, wcreducer.rb, /tmp/hadoop- 


hadoop/hadoop-unjar1531650352198893161/] [] /tmp/streamjob937274081293220534.jar 
12/02/05 12:43:53 INFO mapred.FileInputFormat: Total input paths to process : 1 
12/02/05 12:43:53 INFO streaming.StreamJob: getLocalDirs(): [/var/ hadoop/mapred 





12/02/05 12:43:53 INFO streaming.StreamJob: Running job:job_201202051234_0005 


12/02/05 12:44:01 INFO streaming.StreamJob: map 100% reduce 0% 

12/02/05 12:44:13 INFO streaming.StreamJob: map 100% reduce 100% 
12/02/05 12:44:16 INFO streaming.StreamJob: Job complete:job_201202051234_0005 
12/02/05 12:44:16 INFO streaming.StreamJob: Output: wcoutput 





6. 检查 结果 文件 。 


$ hadoop fs -cat output/part-00000 


原理 分 析 


就 这 个 例子 而 言 ， 实 际 上 不 用 理会 Ruby 代 码 的 细节 ， 即 使 读者 不 懂 这 门 
语言 也 不 要 紧 。 


首先 ， 我 们 创建 了 一 个 脚本 ， 它 将 作为 我 们 的 mapper。 该 脚本 使 用 gets 
函数 从 标准 输入 中 读 取 一 行 ， 将 该 行 切 分 为 词语 ， 并 使 用 puts 函数 将 
词 与 值 1 写 到 标准 输出 。 然 后 ， 我 们 把 该 脚本 做 成 可 执行 文件 。 


本 例 中 ，reducer 则 稍微 复杂 一 些 ， 其 原因 将 在 下 一 节 中 描述 。 无 论 如 
何 ， 它 按照 我 们 的 期 望 执行 了 作业 ， 对 每 个 单词 出 现 的 次 数 进行 计数 ， 
从 标准 输入 读 取 数据 ， 并 将 输出 的 最 终 值 提交 到 标准 输出 。 同 样 ， 我 们 
把 该 脚本 做 成 可 执行 文件 。 


需要 注意 的 是 ， 在 这 两 种 情况 下 ， 我 们 隐 式 地 使 用 了 前 几 章 讨论 的 
Hadoop 输 入 和 输出 格式 。TextInputFormat 属性 处 理 源 文件 ， 并 每 次 
为 map 脚 本 提供 一 行文 本 。 相 反 地 ，TextoutputFormat 属性 确保 准确 
i 当然 ， 我 们 可 以 根据 需要 进 
行 修改 。 


接 下 来 ， 我 们 通过 相当 党 琐 的 命令 行将 Streaming 作 业 提 交 到 Hadoop。 
每 个 脚本 文件 之 所 以 被 指定 了 两 次 ， 是 因为 每 个 节点 上 无 法 使 用 的 文件 
都 必须 由 Hadoop 打 包 并 在 集群 内 部 流转 ， 注 意 需 要 通过 -file 选项 来 指 
定 。 我 们 还 需要 告诉 Hadoop， 分 别 由 哪个 脚本 文件 担任 mapper 和 reducer 
角色 。 


最 后 ， 人 它 应 当 与 前 述 基于 Java 实 现 WordCount 的 
输出 一 致 。 








在 作业 中 使 用 Streaming 的 区 别 


使 用 Streaming 的 WordCount mapper 看 起 来 比 Java 版 本 简单 很 多 ， 但 
reducer 的 逻辑 似乎 更 为 复杂 。 这 是 为 什么 呢 ? 原因 是 ， 当 使 用 Streaming 
时 ，Hadoop 和 任务 之 间 的 隐 含 协议 发 生 了 变化 。 


在 Java 中 ， 我 们 知道 ， 对 于 每 个 输入 键 值 对 ，map() 方法 都 会 被 调用 一 
次 ; 对 于 每 个 键 及 其 相应 的 一 系列 值 ，reduce() 方法 也 会 分 别 被 调 
用 。 


在 Streaming 中 ， 不 再 存在 map 或 reduce 方法 的 概念 ， 我 们 只 能 自己 编 
写 脚本 处理 收 到 的 数据 流 。 这 改变 了 用 户 编写 reducer 的 方式 。 在 Java 
中 ，Hadoop 负 责 为 每 个 键 的 对 应 值 进行 分 组 ， 每 次 调用 reduce 方法 都 
会 接收 一 个 键 和 与 之 对 应 的 所 有 值 列表 。 在 Streaming 中 ， 每 个 reduce 
任务 的 实例 每 次 接收 一 个 单独 的 未 分 组 的 值 。 


Hadoop Streaming 对 键 进行 了 排序 。 例 如 ， 假 如 mapper 输 出 如 下 数据 : 





Hadoop 仍 然 收集 每 个 键 的 值 ， 并 确保 每 个 键 只 传递 给 一 个 reducer。 换 名 
话说 ，reducer 得 到 知 干 键 的 所 有 值 ， 它 们 已 被 组 合 在 一 起 。 然 而 ， 它 们 
不 会 被 打包 到 单个 reducer 执 行 ， 也 就 是 说 ， 每 次 执行 一 个 键 ， 与 Java 


API 中 完全 一 样 。 


这 就 解释 了 Ruby reducer 使 用 的 机 制 : 它 首 先 为 当前 的 词语 设置 空 的 默 
认 值 ， 然 后 在 读 取 每 行内 容 后 ， 确 定 该 行 的 键 与 前 一 行 的 键 是 否 相 同 。 
如 果 答 案 是 肯定 的 ， 累 加 该 键 的 值 。 否 则 ， 保 持 前 一 个 键 的 值 不 变 ， 其 
最 终结 果 被 发 送 到 标准 输出 ， 并 开始 为 新 词 计 数 。 


前 几 章 我 们 一 直 在 说 Hadoop 为 我 们 做 了 多 少 多 少 工作 ， 好 像 有 多 复杂 似 
的 。 但 只 要 写 几 个 Streaming reducer， 你 就 会 发 现实 际 上 没 那 么 复杂 。 
同时 请 记 住 ，Hadoop 仍 然 负 贡 问 不同 map 任 务 分 配 split， 以 及 将 给 定 键 
的 对 应 值 发 送 给 同一 个 reducer。 这 些 行 为 可 以 通过 配置 更 改 mapper 和 
reducer 的 数量 来 改变 ， 就 像 使 用 Java API 一 样 。 








4.3 ”分析 大 数据 集 


有 了 使 用 Java 和 Streaming 编 写 MapReduce 作 业 的 能 力 之 后 ， 现 在 我 们 将 
探讨 一 个 比 之 前 见 过 的 任何 数据 集 都 更 有 意义 的 数据 集 。 我 们 将 讨论 如 
何 分 析 大 数据 集 ， 以 及 Hadoop 可 以 解答 的 关于 大 数据 集 的 各 种 问题 。 
4.3.1 获取 UFO 有 目击 事件 数据 集 
我 们 将 使 用 一 个 公共 领域 数据 集 ， 它 包含 了 超过 60 000 次 UFO 目 击 事件 
的 数据 。 这 个 数据 集 由 InfoChimps 托 管 
在 http://www.infochimps.com/datasets/60000-documented-ufo-sightings- 
with-text-descriptions-and-metada 。 
要 下 载 这 个 数据 集 ， 需 要 注册 一 个 免费 的 InfoChimps 账 号 。 
这 些 数据 由 一 系列 包含 下 列 字 段 的 UFO 目 击 事件 记录 组 成 。 

1. Sighting date : UFO 目 击 事件 发 生 的 时 间 。 


2. Recorded date : 报告 目击 事件 的 日 期 通常 与 目击 事件 时 间 不 


同 。 
3. Location : 目击 事件 发 生 的 地 点 。 
4. Shape : UFO 形 状 的 简要 描述 ， 例 如 ， 萎 形 、 发 光 体 、 圆 简 状 。 
5. Duration : 目击 事件 的 持续 时 间 。 
6. Description : 目击 事件 的 大 致 描述 。 


下 载 完成 后 ， 读 者 会 发 现 该 数据 有 多 种 格式 。 我 们 将 使 用 .tsv 〈 制 表 
符 分 隔 值 ) 版 本 。 


4.3.2 了 解数 据 集 
当面 临 一 个 新 数据 集 的 时 候 ， 通 种 很 难 感知 其 性 质 、 广 度 和 涉及 数据 的 








质量 。 在 着 手 后 续 分 析 之 前 ， 通 常 需 要 先 搞 清 楚 几 个 问题 。 

。 数据 集 有 多 大 ? 

。 记录 的 完整 性 如 何 ? 

。 记录 与 我 们 期 符 的 格式 匹配 程度 如 何 ? 

第 一 个 问题 是 一 个 简单 的 数据 规模 的 问题 。 我 们 谈论 的 是 数 百 、 数 干 、 
数 百 万 ， 或 是 更 多 的 记录 吗 ? 第 二 个 问题 是 询问 数据 的 完整 性 。 假 如 你 
希望 每 条 记录 有 10 个 字段 《如 果 是 结构 化 或 半 结 构 化 数据 ) ， 那 么 有 多 


少 条 记录 的 关键 字段 非 空 ? 最 后 一 个 问题 在 这 一 点 上 进行 扩展 ， 记 录 的 
表现 形式 与 你 所 期 望 的 数据 格式 和 展示 形式 是 人 否 吻合 ? 














4.4 实践 环节 : 统计 汇总 UFO 数 据 


现在 我 们 有 了 这 些 数据 ， 让 我 们 先 统计 一 下 数据 规模 ， 以 及 多 少 条 记录 


古 不 完整 的 。 


1. 以 ufo.tsyv 为 名 在 HDFS 上 保存 UFO** 制 表 符 分 隔 值 x** (TSV) 数 
据 文件 的 同时 ， 将 下 列 内 容 保存 为 summarymapper.rb 文件 。 


#!/usr/bin/env ruby 


while line = gets 


puts 
parts 
puts 
puts 
puts 
puts 
puts 
puts 
puts 


"total\t1" 


= line.split("\t") 


"badline\t1" if parts.size != 6 
"sighted\t1" if !parts[6].empty9? 
"recorded\t1" if !parts[1].empty? 
"location\t1" if !parts[2].empty? 
"shape\t1" if !parts[3].empty? 
"duration\t1" if !parts[4].empty? 
"description\t1" if lparts[5].empty? 





2. 执行 下 列 命令 ， 使 summarymapper .rb 成 为 可 执行 文件 。 


$ chmod +x summarymapper.rb 





3. 使 用 Streaming 执 行 作业 ， 如 下 所 示 。 


$ hadoop jar hadoop/contrib/streaming/hadoop-streaming-1.06.3.jar 
-file summarymapper.rb -mapper summarymapper.rb -file wcreducer.rb 
-reducer wcreducer.rb -input ufo.tsv -output ufosummary 





4. 获取 汇总 数据 。 


$ hadoop fs -cat ufosummary/Vpart-6666 


原理 分 析 





请 记 住 ， 我 们 的 UFO 目 击 事件 应 该 有 前 述 的 6 个 字段 。 它 们 分 别 是 : 

。 目击 事件 的 日 期 

。 报告 目击 事件 的 日 期 

。 目击 事件 的 地 点 

。 UFO 的 形状 

。 目击 事件 的 持续 时 间 

事件 的 大 致 描述 

mapper 处 理 文件 ， 除 识别 淤 在 的 不 完整 记录 ， 还 统计 了 记录 总 数 。 

在 处 理 文件 时 ， 我 们 通过 简单 地 计数 遇 到 多 少 不 同 的 记录 ， 得 到 了 记录 
总 数 。 有 一 些 记录 要 么 少 于 6 个 字段 ， 要 么 至 少 有 一 个 字段 的 值 为 空 ， 
在 处 理 文件 时 通过 标记 这 些 记 录 来 识别 出 潜在 的 不 完整 记录 。 
人 




















。 输出 已 被 处 理 的 记录 总 数 ， 该 值 随 着 程序 运行 不 断 递 增 。 
。 以 制 表 符 来 分 隔 记 录 ， 并 输出 少 于 6 个 字段 的 记录 总 数 。 


。 对 6 个 预期 字段 ，mapper 输 出 字段 值 非 空 〈 也 束 是 该 字段 有 数据 ) 
的 字段 数 ， 尽 管 这 与 数据 质量 没有 关系 。 











我 们 故意 把 mapper 编 写成 输出 〈token，count) 的 形式 。 这 样 就 能 够 
使 用 以 前 实现 的 WordCount reducer 作 为 这 个 作业 的 reducer。 当 然 ， 还 有 
更 高 效 的 实现 方式 ， 但 考虑 到 这 个 作业 不 可 能 被 频繁 地 执行 ， 为 了 方 
便 ， 这 样 做 是 值得 的 。 


在 写作 本 书 时 ， 本 作业 的 输出 结果 如 下 所 示 。 


badline324 
description61372 
duration58961 
location61377 
recorded61377 
shape58855 


sighted61377 
total61377 





从 这 些 数字 我 们 可 以 看 出 ， 共 有 61 300 条 记录 。 这 些 记录 都 提供 了 目击 
事件 发 生 的 时 间 、 报 告 时 间 ， 以 及 目击 事件 发 生地 这 些 字段 的 值 。 大 约 
、 000~59 000 条 记录 有 形状 和 持续 时 间 的 值 ， 几 乎 所 有 记录 都 有 相关 描 
述 。 


当 用 制 表 符 分 割 时 ， 我 们 发 现 有 372 行 记录 的 字段 不 足 6 个 。 然 而 ， 因 为 
只 有 5 条 记录 的 “描述 ”字段 没有 值 ， 这 表明 不 完整 记录 中 的 制 表 符 不 是 
太 少 ， 而 是 太 多 了 。 当 然 ， 我 们 可 以 基于 这 个 事实 调整 mapper 以 收集 详 
细 人 信息。 这 可 能 是 由 文本 描述 使 用 的 制 表 符 所 致 。 不 过 就 眼下 的 分 析 而 
言 ， 我 们 姑且 认为 大 多 数 记 录 都 有 6 个 字段 ， 而 且 每 个 字段 都 有 值 好 
了 。 至 于 每 条 记录 中 是 不 是 有 多 余 的 制 表 符 ， 先 不 管 了 。 





























调查 UFO 形 状 


在 这 些 报告 的 所 有 字段 中 ， 形 状 是 最 直接 引起 我 们 兴趣 的 ， 因 为 基于 该 
字段 信息 ， 我 们 可 以 对 数据 采取 一 些 有 意思 的 分 组 方式 。 


4.5 实践 环节 : 统计 形状 数据 


刚才 统计 了 UFO 数 据 集 的 记录 总 数 ， 现 在 让 我 们 对 UFO 形 状 数据 进行 针 
对 性 的 统计 。 


1. 将 下 列 代 码 保存 为 shapemapper.rb 文件 。 


#!/usr/bin/env ruby 


while line = gets 
parts = line.split("\t") 
if parts.size == 
shape = parts[3].strip 


puts shape+"\t1" if !shape.empty? 





2. 为 shapemapper .rb 文件 增加 可 执行 权限 。 


$ chmod +x shapemapper.rb 





3. 再 次 使 用 WordCount reducer 执 行 这 个 作业 。 


$ hadoop jar hadoop/contrib/streaming/hadoop-streaming-1.6.3.Jjarr 
--file shapemapper.rb -mapper shapemapper.rb -file wcreducer.rb 
-reducer wcreducer.rb -input ufo.tsv -output shapes 





4. 获取 形状 数据 信息 。 





$ hadoop fs -cat shapes/part-66666 


| | 
原理 分 析 





本 例 使 用 的 mapper 相 当 简 单 。 它 把 每 条 记录 按 其 组 成 字段 分 开 ， 丢 弃 不 
和 








出 于 本 节目 的 ， 我 们 乐于 忽略 任何 与 期 望 的 规则 不 匹配 的 记录 。 也 许 一 
次 UFO 目 击 事件 的 记录 将 彻底 证 明 UFO 是 确实 存在 的 ， 但 即便 如 此 ， 一 
次 记录 不 可 能 对 我 们 的 分 析 有 太 大 影响 。 在 决定 丢弃 一 些 记录 之 前 ， 应 
仔细 考虑 一 下 不 同 记录 的 潜在 可 能 值 。 如 果 读 者 投身 于 更 关注 某 种 变化 
趋势 的 聚 类 工作 ， 那 么 个 别 记录 可 能 无 足 轻重 。 但 是 在 个 别 值 可 能 严重 
影响 分 析 结 论 或 者 必须 考虑 在 内 的 情况 下 ， 不 能 弃 用 这 些 记录 ， 最 好 斌 
着 小 心 碳 宙 地 解 术 关 恢复 它们 。 我 们 将 在 第 6 章 中 对 这 种 权衡 进行 更 多 
JWH Ve eo 


像 往 第 一 样 ， 将 mapper 设 置 可 执行 属性 并 运行 生成 的 作业 后 ， 结 果 表 明 
有 29 种 不 同 的 UFO 形 状 。 为 节省 版 钾 ， 这 里 以 制 表 符 分 割 的 紧 竣 结构 展 
示 作 业 的 输出 。 


changed1 changing1533 chevron758 cigar1774 
circle5256 cone265 crescent2 cross177 
cylinder981 delta8 diamond969 disk4798 
dome1 egg661 fireball3437 flarel 

flash988 formation1775 hexagon1 light121406 
other4574 oval2859 pyramid1 rectangle957 











round2 sphere3614 teardrop592 triangle6636 
unknown4459 





正如 我 们 所 看 到 的 ， 不 同形 状 的 目击 事件 发 生 的 频率 相差 很 大 。 某 些 形 
状 的 UFO 目 击 事件 只 出 现 过 1 次 ， 如 pyramid (金字 塔 ; ， 而 light (发 光 
体 ) 出 现 的 频率 超过 了 全 部 目击 事件 的 15。 考 虑 到 许多 UFO 有 目击 事件 
发 生 在 夜晚 ， 可 能 有 人 认为 发 光 体 的 描述 并 不 是 非常 有 用 ， 或 者 不 够 具 
体 。 如 果 再 算 上 other (其 他 ) 和 unknown (未 知 )， 我 们 看 到 58 000 次 
形状 报告 中 约 有 21 000 个 实际 上 可 能 没有 任何 用 处 。 我 们 并 不 打算 侧根 
究 底 或 者 做 其 他 研究 ， 所 以 到 底 有 多 少 次 目击 事件 的 形状 是 有 用 的 这 一 








点 并 不 十 分 重要 。 但 重要 的 是 ， 我 们 要 开始 从 这 些 角度 考虑 数据 。 甚 至 
通过 这 些 类 型 的 统计 分 析 ， 我 们 能 够 洞察 数据 本 质 和 分 析 结 论 的 质量 。 
例如 ， 我 们 已 经 发 现在 61 000 次 目击 事件 中 ， 只 有 58 000 次 事件 报告 的 
形状 字段 非 空 ， 而 这 其 中 又 有 21 000 次 目击 事件 的 形状 字段 是 含糊 值 。 
这 样 ， 我 们 就 知道 61 000 次 目击 事件 的 样本 集 只 提供 了 37 000 个 可 能 

展 工 作 的 形状 报告 。 如 果 你 的 分 析 结 论 建立 在 少量 样本 基础 之 上 ， 那 么 
一 定 要 进行 这 种 前 期 统计 以 确定 数据 集 是 否 能 满足 实际 需要 。 





4.6 ”实践 环节 : 找 出 目击 事件 的 持续 时 间 与 UFO 
形状 的 关系 

让 我 们 稍 加 详细 地 分 析 形 状 数据 。 我 们 想 知道 ， 在 目击 事件 的 持续 时 间 
与 UFO 形 状 之 间 是 否 存 在 某 种 关联 。 也 许 雪茄 状 UFO 比 其 他 形状 UFO 持 
续 的 时 间 更 长 ， 又 或 许 UFO 编 队 的 持续 时 间 总 是 固定 的 。 


1. 保存 下 列 内 容 为 shapetimemapper.rb 文件 。 


#!/usr/bin/env ruby 














pattern = Regexp.new / \d* ?((min)|(sec))/ 


while line = gets 
parts = line.split("\t") 
if parts.size == 


shape = parts[3].strip 

duration = parts[4].strip.downcase 
if !shape.empty? && !duration.empty? 
match = pattern.match(duration) 
time = / \d*/.match(match[6])[e8] 
unit = match[1] 

time = Integer(time) 

time = time * 60 if unit == "min" 
if unit == "min" 

puts shape+"\t"+time.to s 

end 

end 

end 





2. 通过 执行 以 下 命令 把 shapetimemapper .rb 文件 做 成 可 执行 文件 。 





$ chmod +x shapetimemapper.rb 


| | 


3. 保存 下 列 内 容 为 shapetimereducer .rb 文件 。 
#!/usr/bin/env ruby 
current = nil 


min = 6 
max 


mean = 0 
total = 6 
count = 0 


while line = gets 
word, time = line.split("\t") 
time = Integer(time) 


if word == current 
count = count+1 
total = total+time 
min = time if time < min 
max = time if time > max 
else 
puts current+"\t"+min.to s+" "+max.to s+" "+(total/count).to s if 
current 
current = word 
1 
time 
time 
time 


puts current+"\t"+min.to s+" "+max.to s+" "+(total/count).to s 





4. 通过 执行 以 下 命令 把 shapetimereducer.rb 做 成 可 执行 文件 。 


$ chmod +x shapetimereducer.rb 





5. 运行 作业 。 


$ hadoop jar hadoop/contrib/streaminghHadoop-streaming-1.9.3.Jjar 
-file shapetimemapper.rb -mapper shapetimemapper.rb -file 
shapetimereducer.rb -reducer shapetimereducer.rb -input ufo.tsv 


-output shapetime 





6. 获取 结果 。 


$ hadoop fs -cat shapetime/part-060066 





原理 分 析 


由 于 持续 时 间 字 段 的 原因 ，mapper 比 之 前 的 例子 稍微 复杂 一 些 。 快 速 浏 
览 一 些 示 例 记 录 ， 我 们 发 现 部 分 记录 的 持续 时 间 字 段 值 如 下 。 


15 seconds 
2 minutes 
2 min 
2minutes 








5-160 seconds 








换 句 话说 ， 持 续 时 间 字 段 的 值 既 可 能 是 时 间 区 间 ， 也 可 能 是 绝对 的 时 间 
值 ， 而 且 其 格式 不 同 ， 时 间 单 位 不 一 致 。 为 简单 起 见 ， 我 们 决定 对 数据 
进行 有 限 解释 : 如 条 存在 绝对 的 时 间 值 ， 我 们 就 采用 该 值 ， 否 则 采用 时 
间 区 间 的 上 限 作为 条 次 UFO 目 击 事件 的 持续 时 间 。 假 设 时 间 单 位 用 min 
或 者 sec 字符 串 表 示 ， 并 将 所 有 的 时 间 都 转 为 以 秒 为 单位 。 借 助 一 些 正 
则 表达 式 ， 我 们 依照 上 述 规 则 分 解 持续 时 间 和 字段 的 值 ， 并 将 其 转换 为 以 
秒 为 单位 。 请 再 次 注意 ， 我 们 简单 地 弃 用 那些 与 预期 规则 不 一 致 的 记 
录 ， 当 然 这 个 做 法 不 一 定 总 是 合适 的 。 


遵循 与 之 前 示例 中 的 reducer 相 同 的 模式 ， 从 一 个 默认 键 开始 读 取 该 键 的 





值 ， 直 到 过 到 一 个 新 的 键 。 在 这 种 情况 下 ， 我 们 想 要 获取 每 种 形状 的 
间 的 极 小 值 、 极 大 值 、 平 均值 ， 因 此 需要 使 用 大 量变 量 来 跟 
踩 所 需 数据 。 


请 记 住 ，Streaming reducer 需 要 处 理 多 个 键 及 与 每 个 键 对 应 的 一 系列 
值 ， 当 新 一 行 的 键 发 生变 化 时 ，reducer 需 要 识别 这 个 变化 ， 因 此 ， 需 要 
标识 已 处 理 的 前 一 个 键 的 最 后 一 个 值 。 与 此 相反 ，Java reducer 更 简单 一 
些 ， 每 次 执行 中 仅 处 理 一 个 键 的 关联 值 。 


把 mapper 和 reducer 都 做 成 可 执行 文件 之 后 ， 运 行 本 作业 并 获得 如 下 结 
果 。 这 些 结果 中 除去 了 目击 次 数 少 于 10 次 的 UFO 形 状 ， 而 且 为 节省 空 
间 ， 输 出 更 为 紧凑 。 紧 跟 每 个 形状 的 几 个 数字 分 别 是 其 持续 时 间 的 最 小 
值 、 最 大 值 以 及 平均 值 。 








changing6 5466 676 chevron86 3666 333 
cigar6 5466 376 circle6 7266 423 
Cone8 4566 498 cross2 3666 460 
cylinder@ 5766 386 diamond6 7866 519 
disk6 5466 449 eg8g6 5466 383 
firebal16 5466 236 flash86 7266 363 
formation6 5466 434 1ight6 9666 462 


other6 5466 418 oval16 5466 465 
Fectangle6 4266 352 Sphere6 14466 396 
teardrop6 2766 335 triangle6 18666 375 
unknown@ 6666 476 





令 人 怀 奇 的 是 ， 所 有 形状 的 平均 持续 时 间 的 变化 范围 相对 较 小 。 大 多 数 

UFO 目 击 事件 的 平均 持续 时 间 在 350~430 秒 之 间 。 而 且 有 趣 的 是 ， 我 们 

也 看 到 ，fireball (火球 〉 的 平均 持续 时 间 最 短 ，changing (变化 不 定 ) 

的 平均 持续 时 间 最 长 ， 这 两 者 在 某 种 程度 上 都 符合 人 的 直觉。 火球 嘛 ， 

9 而 变化 不 定 的 物体 可 能 需要 较 长 时 间 人 们 才能 注意 
中 它 的 僵化 。 


在 Hadoop 外 部 使 用 Streaming 脚 本 


最 后 一 个 例子 的 mapper 和 reducer 更 为 复杂 ， 它 很 好 地 说 明了 使 用 
Streaming 帮 助 MapReduce 开 发 的 另 一 种 方法 : 在 Hadoop 外 部 执行 


Streaming 脚 本 。 


通常 ， 在 MapReduce 开 发 过 程 中 使 用 产品 数据 示例 来 测试 代码 是 一 种 较 
好 的 做 法 。 但 在 HDFS 上 使 用 Java 编 号 nap 和 reduce 任 务 使 调试 问题 或 改 
进 复杂 逻辑 变 得 很 困难 。 而 使 用 从 命令 行 谈 取 输 入 的 map 和 reduce 任 
务 ， 读 者 可 以 直接 用 一 些 数据 测试 它们 ， 快 速 从 结果 中 得 到 反馈 。 如 果 
读者 的 开发 环境 可 以 集成 Hadoop 或 者 在 独立 模式 下 使 用 Hadoop， 问 题 
是 最 少 的 。 记 住 ，Streaming 人 允许 用 户 在 Hadoop 外 部 使 用 脚本 ， 没 准 哪 
一 天 你 就 能 用 上 这 个 技术 。 


在 开发 这 些 脚 本 的 时 候 ， 作 者 注意 到 ， 在 他 使 用 的 UFO 数 据 文件 中 ， 最 


后 一 组 记录 的 数据 结构 化 程度 要 优 于 文件 开头 部 分 数据 。 使 用 mapper 执 
行 快速 测试 只 需 使 用 如 下 命令 : 


$ tail ufo.tsv | shapetimemapper.rb 


这 个 方法 可 被 应 用 到 使 用 map 和 reduce 脚 本 的 整个 工作 流程 。 














4.7 实践 环节 : 在 命令 行 中 执行 形状 /时 间 分 析 


通过 本 地 命令 行 的 方式 执行 这 种 数据 分 析 的 方法 可 能 不 是 很 明显 ， 因 此 
我 们 先 看 一 个 例子 。 


对 存储 在 本 地 文件 系统 的 UFO 数 据 文 件 ， 执 行 下 列 命令 : 


$ cat ufo.tsv | shapetimemapper.rb | sort| shapetimereducer.rb 


原理 分 析 





短 短 的 一 句 Unix 命 令 行 产 生 的 输出 ， 却 与 之 前 完整 的 MapReduce 作 业 的 
输出 一 模 一 样 ， 简 直 不 可 思议 。 详 细 分 析 上 述 命令 所 执行 的 操作 ， 就 会 
明日 其 原因 。 


首先 ， 将 输入 文件 按 行 发 送 给 mapper， 每 次 一 行 。 这 个 步骤 的 输出 被 传 
到 Unix sort 工 具 ， 经 过 排序 的 输出 又 被 按 行 传 给 reducer。 当 然 ， 这 是 各 
用 MapReduce 作 业 流 程 的 简化 表示 。 


那么 ， 显 而 易 见 的 问题 是 ， 如 果 我 们 能 使 用 命令 行进 行 等 效 分 析 ， 为 什 
么 还 要 用 Hadoop 呢 ? 答案 依然 照旧 大 数据 处 理 。 这 种 简单 的 方法 可 
以 有 效 处 理 类 似 UEFO 目 击 事件 这 样 大 小 的 数据 文件 ， 这 个 文件 虽 不 算 
Re 71 MB。 今天 ， 随 便 找 一 块 硬盘 就 可 以 容纳 数 千 份 这 样 的 数 
那么 ， 如 果 数 据 集 大 小 是 71 GB， 甚 至 是 71 TB， 该 怎么 办 呢 ? 在 后 一 种 
情况 下 ， 至 少 需 要 将 数据 分 布 在 多 台 主 机 ， 然 后 决定 如 何 切 分 数据 ， 组 
合 部 分 答案 ， 并 且 处 理 遇 到 的 不 可 避免 的 故障 。 换 句 话 说， 这 时 候 就 需 
要 类 似 Hadoop 这 样 的 工具 了 。 


然而 ， 也 不 要 小 看 使 用 类 似 的 命令 行 工具 ， 这 些 方法 应 当 在 MapReduce 
开发 过 程 中 得 到 民 好 使 用 。 


使 用 Java 分 析 形 状 和 地 点 




















现在 ， 我 们 考虑 用 Java MapReduce API 对 UFO 目 击 事件 报告 中 的 形状 和 
地 点 数据 进行 分 析 。 


在 开始 编写 代码 之 前 ， 回 想 一 下 前 面 是 如 何 分 析 UFO 目 击 事件 数据 集 的 
各 个 字段 的 。 之 前 的 mapper 有 一 个 通用 的 模式 。 


。 于 弃 已 损坏 记录 。 
。 处 理 有 效 记 录 ， 提 取 感 兴趣 的 字段 。 
。 针对 这 些 记录 ， 输 出 我 们 所 关注 的 数据 。 


现在 ， 假 如 我 们 打算 编写 Java mapper 来 分 析 UFO 上 日 击 事件 发 生 的 地 点 ， 
之 后 可 能 分 析 报 告 时 间 ， 我 们 将 遵循 类 似 的 模式 。 那 么 ， 我 们 是 否 可 以 
避免 由 此 产生 的 代码 重复 问题 呢 ? 


答案 是 肯定 的 ， 通 过 使 

用 org.apache.hadoop.mapred.1ib.ChainMapper 即 可 解决 该 问 

题 。ChainMapper 类 可 以 顺序 执行 多 个 mapper， 而 且 最 后 的 mapper 输 
出 会 传递 给 reducer。ChainMapper 不 仪 适用 于 这 种 数据 清理 ， 而 且 在 
分 析 特 定 作 业 时 ， 先 通过 它 执 行 多 个 map 型 任务 再 应 用 reducer 的 做 法 也 
很 常见 。 

这 种 做 法 需要 编写 一 个 校 验 mapper， 它 可 用 于 将 来 所 有 的 字段 分 析 作 
业 。 校 验 mapper 会 丢弃 错误 记录 行 ， 只 将 有 效 的 行 传 入 实际 的 业务 逻辑 
mapper。 这 样 的 话 ， 目 前 的 业务 逻辑 mapper 就 可 以 专注 于 分 析 数 据 而 不 
用 担心 粗 粒度 的 校 验 。 


另 一 种 可 供 选 择 的 做 法 是 ， 在 自 定 义 的 InputFormat 类 中 验证 数据 并 
丢弃 无 效 记 录 。 哪 一 种 方法 更 合理 取决 于 用 户 的 特定 情况 。 


链 里 的 每 个 mapper 都 会 在 一 个 独立 的 JVM 中 执行 ， 所 以 不 必 担 心 使 用 多 
个 mapper 会 增加 文件 系统 的 IO 负载 。 

















4.8 实践 环节 :， 使 用 ChainMapper 进 行 字段 验证 / 
分 析 
让 我 们 在 作业 中 使 用 ChainMapper 类 验证 记录 是 否 有 效 。 


1. 在 UFORecordValidationMapper.java 文件 中 创建 如 下 类 。 





import java.io.IOException,; 


import org.apache.hadoop.io.* ， 
import org.apache.hadoop.mapred.* ， 
import org.apache.hadoop.mapred.1ib.* ， 


public class UFORecordValidationMapper extends MapReduceBase 
implements Mapper 


{ 
public void map(Longwritable key, Text value, 
OutputCollector output, 
Reporter reporter) throws IOException 
String line = value.toString(); 
if (validate(line)) 
output.collect(key, value); 
} 


private boolean validate(String str) 
String[] parts = str.split("\t") ; 


if (parts.length != 6) 
return false ， 


return true ; 


} 





2. 使 用 下 列 代 码 创 建 UFOLocation.java 文件 。 





import java.io.IOException,; 
import java.util.Iterator ， 
import java.util.regex.* ， 


import org.apache.hadoop.conf.* ， 

import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.* ， 

import org.apache.hadoop.mapred.* ， 

import org.apache.hadoop.mapred.1ib.* ， 


public class UFOLocation 


{ 


public static class MapClass extends MapReduceBase 
implements Mapper 


{ 


private final static Longwritable one = new Longwritable(1); 
private static Pattern locationpattern = Pattern.compile( 
"[a-zA-Z]{2}[^a-zA-Z]*$") ， 


public void map(Longwritable key, Text value, 
OutputCollector output, 
Reporter reporter) throws IOException 
{ 
String line = value.toString(); 
String[] fields = line.split("\t") ， 
String location = fields[2].trim() ; 


if (location.length() >= 2) 
{ 


Matcher matcher = locationPattern.matcher(location) ， 
if (matcher.find() ) 
{ 
int start = matcher.start() ; 
String state = location.substring(start, start+2); 


output.collect(new Text(state.toUpperCase()), One); 


public static void main(String[] args) throws Exception 


{ 

Configuration config = new Configuration() ，; 
JobConf conf = new JobConf(config, UFOLocation.class); 
conf.setJobName( "UFOLocation"); 


conf.setOutputkeyClass(Text.c]lass); 
conf.setOutputValueClass(Longwritable.class); 


JobConf mapconf1 = new JobConf(false) ， 
ChainMapper.addMapper( conf, UFORecordValidationMapper.class, 
Longwritable.class, Text.class, LongwWritable.class, 
Text.class, true, mapconf1) ， 


JobConf mapconf2 = new JobConf(false) ， 
ChainMapper ,addMapper( conf, MapClass.class, 
Longwritable.class, Text.class, 

Text.class, Longwritable.class, true, mapconf2) ， 
conf.setMapperClass(ChainMapper .class); 

conf .setCombinerClass(LongSumReducer ,class ) ; 

conf .setReducerCJlass(LongSumReducer .class); 


FileInputFormat .setInputPaths(conf,args[0]) ， 
FileOutputFormat.setOutputPath(conf, new Path(args[1])) ， 


JobClient .runJob(conf ) ， 
} 





3. 编译 上 述 两 个 文件 。 
4. 将 上 述 两 个 类 文件 打包 为 ufo.jar 文件 并 提交 作业 至 Hadoop。 
5. 将 输出 文件 拷贝 至 本 地 文件 系统 并 检查 它 。 


$ Hadoop fs -get output/part-00000 locations.txt 
$ more 1Locations ,txt 


原理 分 析 





上 述 代码 实现 了 很 多 功能 ， 让 我 们 一 段 一 段 地 进行 分 析 。 


第 一 个 mapper 是 一 个 简单 的 验证 mapper。 该 类 与 标准 MapReduce API 的 
接口 相同 ，map 返回 了 验证 的 结果 。 我 们 将 验证 方法 分 割 为 单独 的 方法 
以 突出 mapper 的 功能 ， 但 是 这 些 校 验 可 以 很 容易 地 在 map 主 方法 中 实 
现 。 为 了 简单 起 见 ， 我 们 坚持 以 前 的 验证 策略 ， 检 查 字 段 数 并 丢弃 那些 
少 于 6 个 字段 的 记录 。 


请 注意 ，ChainMapper 类 不 幸 地 成 为 最 后 迁移 到 context 对 象 API 的 组 件 
之 一 ， 截 至 Hadoop 1.0， 只 能 使 用 旧 的 API。ChainMapper 仍 是 一 个 有 效 
的 概念 和 有 用 的 工具 ， 但 直到 Hadoop 2.0， 它 才 会 将 被 迁移 

到 org.apache.hadoop .mapreduce.1ib.chain 包 ， 所 以 目前 仍 需 使 
用 其 较 老 的 方法 。 


男 一 个 文件 实现 了 男 一 个 mapper， 并 在 主 方法 中 包含 了 一 个 升级 后 的 驱 
动 。 该 mapper 在 UFO 目 击 事件 报告 的 地 点 字段 寻找 双 字 母 序 列 。 手 工 检 
查 数据 发 现 ， 很 明显 大 部 分 地 点 字段 的 值 是 “城市 ， 州 ”的 形式 ， 在 这 
里 ， 标 准 的 双 字 符 缩 写 表 示 UEFO 目 击 事件 发 生 的 州 名 。 


然而 ， 有 些 记录 加 入 了 后 括号 、 句 号 或 其 他 标点 符号 。 劝 一 些 记录 根本 
就 不 是 这 种 格式 。 对 我 们 而 言 ， 我 们 很 乐意 抛弃 那些 记录 ， 并 专心 处 理 
那些 我 们 比较 看 重 的 、 以 双 字 符 的 州 名 缩写 结尾 的 记录 。 


map 方 法 使 用 另 一 个 正则 表达 式 从 地 点 字段 中 提取 州 名 缩写 ， 并 输出 其 
大 写 形式 和 计数 结果 。 

















本 作业 的 驱动 程序 发 生 的 变化 最 大 。 之 前 的 张 动 配置 中 仅 包 含 一 个 map 
类 ， 而 本 作业 的 驱动 配置 要 多 次 调用 ChainMapper 类 。 


在 驱动 中 多 次 调用 ChainMapper 类 的 一 般 模式 是 ， 为 每 个 mapper 新 建 
一 个 配置 对 象 ， 然 后 将 mapper 添 加 到 ChainMapper 类 ， 同 时 指定 输入 
和 输出 位 置 ， 并 引用 整个 作业 的 配置 对 象 。 


请 注意 ， 上 述 两 个 mapper 的 参数 略 有 不 同 。 它 们 都 输入 LongWritable 
类 型 的 键 及 Text 类 型 的 值 。 区 别 在 于 输出 的 数据 类 

型 . UFORecordValidationMapper 输出 LongWritable 类 型 的 键 及 
Text 类 型 的 值 ， 而 UFOLocationMapper 则 相反 ， 输 出 Text 类 型 的 键 
及 LongWritable 类 型 的 值 。 


重要 的 是 ， 要 保证 mapper 链 条 末端 的 UFOLocationMapper 的 输入 
与 reduce 类 (LongSumReducer ) 的 输入 类 型 相 匹 配 。 在 使 

用 ChainMapper 类 时 ， 只 要 符合 下 列 条 件 ， 链 条 中 的 mapper 可 以 有 不 
同 的 输入 和 输出 : 


。 除 最 后 一 个 mapper 外 ， 链 条 中 每 个 map 的 输出 与 下 一 个 mapper 的 输 
入 相 匹 配 ; 


。 对 最 后 一 个 mapper 而 言 ， 其 输出 与 reducer 输 入 相 匹 配 。 
我 们 编译 这 些 类 并 将 其 打包 到 同一 个 jar 文 件 。 这 是 我 们 第 一 次 从 多 个 
Java 源 文件 获得 捆绑 输出 。 正 如 所 料 ， 这 没什么 神奇 的 。jar 文 件 、 路 径 
以 及 类 名 的 常用 规则 在 这 里 同样 适用 。 因 为 在 这 个 例子 中 ， 所 有 类 都 在 
同一 个 jar 包 中 ， 不 必 担 心 驱 动 类 文件 的 引入 。 


随后 ， 我 们 运行 MapReduce 作 业 并 检查 输出 ， 结 果 与 预期 有 些 不 同 。 




















下 


使 用 Java API 和 前 面 的 ChainMapper 例 子 来 重新 实现 之 前 用 Ruby 编 写 的 
mapper， 该 mapper 输 出 不 同 UFO 形 状 出 现 的 频率 与 其 持续 时 间 。 


1. 缩写 太 多 


前 一 节 作业 的 输出 结果 如 下 所 示 。 


{ 一 





该 文件 有 186 个 不 同 的 双 字 符 和 条目。 简单 地 说 ， 从 地 点 字段 提取 双 字 符 
的 方法 并 非 完 全 可 行 。 


在 人 工分 析 源 文件 之 后 ， 许 多 数据 问题 浮 出 水 面 。 
。 州 名 的 大 写 缩写 不 一 致 。 


。 大 量 的 目击 事件 并 非 发 生 在 美国 ， 尺 管 它 们 可 能 遵守 类 似 〈 城 市 ， 
0 的 格式 ， 但 是 它们 的 缩写 并 不 在 我 们 预计 的 50 个 地 区 缩写 之 





。 有 些 字 段 根本 不 遵守 《〈 城 市， 地区) 这 样 的 规则 ， 但 仍 会 被 正则 表 
达 式 采集 到 。 


我 们 需要 对 结果 进行 过 滤 ， 最 好 是 将 美国 记录 标准 化 为 正确 的 州 名 输 
出 ， 并 将 其 余数 据 划 分 为 一 个 范围 更 宽泛 的 大 类 。 


为 了 执行 这 个 任务 ， 需 要 在 mapper 中 添加 一 些 内 容 ， 让 它 明 白 什 么 是 有 
效 的 美国 州 名 缩写 。 当 然 ， 我 们 可 以 将 其 硬 编 码 到 mapper 中 ， 但 这 似乎 
不 是 正确 的 做 法 。 虽 然 现 在 我 们 计划 将 所 有 非 美 国 的 目击 事件 视 为 一 
类 ， 但 我 们 今后 还 可 能 对 该 类 进行 扩展 ， 比 如 按 国家 进行 划分 。 如 果 将 
州 名 缩写 人 硬 编码 到 mapper， 那 就 需要 每 次 重新 编译 我 们 的 mapper。 














2. 使 用 分 布 式 缓存 


为 了 使 作业 的 所 有 任务 共享 引用 数据 ，Hadoop 为 我 们 提供 了 一 种 可 供 选 
择 的 机 制 分 布 式 缓存 。 它 可 以 把 map 或 reduce 任 务 要 用 的 通用 只 读 
文件 在 所 有 节点 之 间 共 享 。 这 些 文件 可 以 是 像 本 例 中 的 文本 数据 ， 也 可 
以 是 其 他 jar 文 件 、 二 进 制 数 据 或 一 些 归档 文件 等 ， 任 何 文件 都 可 以 。 


要 被 共享 的 文件 放置 在 HDFS， 作 业 驱 动 将 其 加 入 到 DistributedCache。 
在 作业 执行 前 ，Hadoop 的 每 个 节点 会 将 文件 复制 到 本 地 文件 系统 ， 这 意 
味 着 每 个 任务 对 文件 都 具有 本 地 访问 权限 。 


为 一 种 方法 是 将 需要 的 文件 捆绑 编译 成 作业 jar， 然 后 提交 给 Hadoop。 
将 数据 打包 到 jar 文 件 使 数据 很 难 在 作业 间 共 享 ， 而 且 如 果 数 据 发 生变 
化 ， 还 需要 重新 编译 jar 文 件 。 

















4.9 ”实践 环节 : 使 用 Distributed Cache 改 进 地 点 输 


出 


我 们 现在 使 用 Distributed Cache 在 集群 内 部 共享 美国 州 名 及 其 缩写 列 
表 : 


1. 


在 本 地 文件 系统 创建 名 为 states .txt 的 数据 文件 。 文 件 中 的 每 行 
内 容 都 是 一 个 以 制 表 符 分 隅 的 州 名 缩写 及 全 称 。 读 者 可 以 从 本 书 主 
页 获取 该 文件 。 该 文件 的 开头 部 分 如 下 所 示 。 


Alabama 
Alaska 
Arizona 
Arkansas 


California 





. 将 states .txt 文件 放 到 HDFS 上 。 


$ hadoop fs -put states.txt states.txt 


将 之 前 的 UFOLocation.java 拷贝 为 UFOLocation2.java 文 件 ， 并 通 
过 添加 下 列 “ 引 用 ”声明 修改 该 文件 。 


java.io.* ， 

java.net.* ， 

java.util.* ， 

org.apache.hadoop.fs.Path; 
org.apache.hadoop.filecache.DistributedCache ，; 








. 将 下 列 内 容 添 加 到 驱动 程序 的 主 方法 中 ， 放 在 设置 作业 名 的 代码 之 


后 。 
DistributedCache.addCacheFile(new URI ("/user/hadoop/states.txt"), conf) ; 


. 将 map 类 符 换 为 以 下 内 容 。 


public static class MapClass extends MapReduceBase 
implements Mapper 


private final static Longwritable one = new 


Longwritable(1); 
private static Pattern locationpattern = Pattern.compile( "[a-zA 
private Map stateNames ， 





@Override 


public void configure( JobConf job) 
{ 


try 
{ 
Path[] cacheFiles = DistributedCache. getLocalCacheFiles(job) ; 
setupStateMap( cacheFiles[0].toString()) ， 
} catch (IOException e) 
{ 
System.err.printJln("Error reading state file.") ，; 
System.exit(1) ; 
} 


} 


private void setupStateMap(String filename) 
throws IOException 
t 
Map states = new HashMap(); 
BufferedReader reader = new BufferedReader( new FileReader(filename)) ; 
String line = reader.readLine()，; 
while (line != null) 
{ 
String[] split = line.split("\t") ， 
states.put(split[0], split[1]) ; 
line = reader.readLine().，; 


} 


stateNames = states ， 


} 


public void map(Longwritable key, Text value, 
OutputCollector output, 
Reporter reporter) throws IOException 

4 
String line value.toString(); 

String[] fields line.split("\t") ， 

String location fields[2] .trim() ， 

if (location.length() >= 2) 


t 
Matcher matcher = locationpattern.matcher(location) ， 
if (matcher .find() ) 
{ 
int start = matcher.start() ; 
String state = location.substring(start, start+2) ， 
output.collect(newText(lookupState(state. toUpperCase())), one); 
} 
} 
} 
private String lookupState( String state) 
{ 


String fullName = stateNames.get(state) ，; 


return fullName == null? "Other": fullName ; 


} 





6. 编译 这 些 类 并 将 作业 提交 至 Hadoop。 随 后 获取 结果 文件 。 
原理 分 析 


首先 ， 我 们 创建 了 一 个 本 作业 要 用 到 的 查询 文件 ， 并 将 其 放 在 HDFS 
上 。 要 添加 到 Distributed Cache 的 文件 必须 首先 拷贝 到 HDFS 文 件 系统 。 


在 创建 新 的 作业 文件 之 后 ， 我 们 添加 了 必需 的 类 引用 。 然 后， 修改 驱动 
类 ， 将 我 们 想 在 每 个 节点 上 访问 的 文件 添加 到 Distributed Cache。 文 件 

0 但 最 简单 的 方法 是 使 用 该 文件 在 HDFS 上 的 绝 
对 路 径 。 


我 们 也 对 mapper 类 进行 了 大 量 修改 。 其 中 ， 新 增 了 一 个 重 写 的 
configure 方法 ， 该 方法 使 用 map 方 法 将 州 名 缩写 与 全 称 关 联 起 来 。 


configure 方法 在 任务 局 动 时 被 调用 ， 其 默认 实现 不 执行 任何 操作 。 在 
我 们 重 写 的 版 本 中 ， 该 方法 获取 已 添加 到 Distributed Cache 中 的 文件 阵 
列 。 因 为 我 们 知道 缓存 中 只 有 一 个 文件 ， 所 以 束 直 接 取得 数组 中 第 一 
项 ， 并 将 其 传 给 utility 方法 ， 该 方法 解析 文件 并 使 用 文件 内 容 填 充 州 
名 缩写 查询 map。 请 注意 ， 一 旦 获得 了 文件 引用 ， 我 们 就 可 以 使 用 标准 
Java IO 类 来 访问 该 文件 了 ， 毕 竟 它 只 是 一 个 本 地 文件 系统 的 文件 。 
我 们 添加 了 男 一 种 方法 来 执行 查询 ， 该 方法 的 参数 是 从 地 点 字段 获取 的 


字符 串 ， 如 果 有 匹配 结果 ， 它 返回 州 名 的 全 称 ， 否 则 返回 字符 串 0ther 
。 该 方法 在 OutputCollector 类 对 map 方 法 的 结果 进行 写 操作 之 前 调 
用 。 

















本 作业 的 结果 大 致 如 下 。 





Alabama 548 
Alaska 234 
Arizona 2697 
Arkansas 534 
California 7679 


Other 4531... 


| | 








这 段 代 码 运 行 得 很 好 ， 但 我 们 在 此 期 间 却 丢失 了 一 些 信息 。 在 验证 
mapper 中 ， 我 们 丢 控 了 少 于 6 个 字段 的 所 有 记录 。 昌 然 我 们 不 在 意 丢 弃 
个 别 记录 ， 但 我 们 可 能 会 关心 被 丢弃 的 记录 数量 是 不 是 很 多 。 目 前 ， 确 
定 被 丢 痉 记录 数量 的 唯一 方法 是 ， 味 计 包含 有 效 地 点 的 记录 数 并 从 文件 
记录 总 数 中 减 去 该 值 。 我 们 也 可 以 尝试 将 这 些 数 据 传 入 作业 的 其 余部 
分 ， 以 一 个 特殊 的 reduce 键 来 收集 该 值 ， 但 这 个 想法 似乎 行 不 通 。 笠 运 
的 是 ， 我 们 有 一 个 更 好 的 办 法 。 


























4.10 计数器、 状态 和 其 他 输出 
每 个 MapReduce 作 业 结尾 都 有 一 些 与 计数 器 相关 的 输出 ， 比 如 下 面 这 
些 : 


12/62/12 
12/62/12 
12/62/12 
12/62/12 
12/62/12 
12/62/12 


12/62/12 


你 也 可 以 添加 目 定 义 计 数 嚣 ， 从 所 有 任务 中 聚合 信息 ， 并 在 最 终 输 出 和 


.JobClient: Counters: 22 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 
.JobClient: 


Job Counters 
Launched reduce tasks=1 
Launched map tasks=18 
Data-local map tasks=18 
SkippingTaskCounters 
MapProcessedRecords=61393 











MapReduce web UI 中 得 到 统计 结果 。 


+ 实践 坏 市 : 创建 计数 占 、 任 务 状态 和 写 入 日 


志 


我 们 将 修改 UFORecordvalidationMapper ， 用 它 统计 被 略 去 的 记录 
数 ， 并 标记 一 些 记录 作业 信息 的 其 他 措施 。 


1. 创建 UFOCountingRecordValidationMapper.java 文件 ， 输 入 以 
下 内 容 。 


import java.io.IOException,; 


import org.apache.hadoop.io.* ， 
import org.apache.hadoop.mapred.* ， 
import org.apache.hadoop.mapred.1ib.* ; 


public class UFOCountingRecordValidationMapper extends 
MapReduceBase 
implements Mapper 


{ 
public enum LineCounters 
BAD_LINES, 
TOO_MANY_TABS, 
TOO_FEW_TABS 
}; 
public void map(Longwritable key, Text value, 
OutputCollector output, 
Reporter reporter) throws IOException 
String line = value.toString(); 
if (validate(line, reporter)) 
Output.collect(key, value); 
private boolean validate(String str, Reporter reporter) 
String[] parts = str.split("\t") ; 
if (parts.length != 6) 


{ 
if (parts. length 





2. 复制 UFOLocation2.Jjava ， 男 存 为 UFOLocation3.java ， 使 用 下 
列 新 mapper 代 蔡 UFORecordValidationMapper 。 





JobConf mapconf1 = new JobConf(false) ， 
ChainMapper .addMapper( conf, 


UFOCountingRecordValidationMapper ,class， 


Longwritable.class, Text.class, Longwritable.class, 
Text.class, 


true, mapconf1) ， 





3. 编译 文件 ， 打 包 为 jar 并 提交 作业 至 Hadoop。 


12/02/12 :28 : mapred.JobClient: Counters: 22 

12/02/12 :28: mapred.JobCclient:UFOCountingRecordValidationMapper$LineCo 
12/02/12 :28: mapred.JobClient: TOO_MANY_TABS=324 

12/02/12 :28: mapred.JobClient: BAD_LINES=326 

12/02/12 :28: mapred.JobClient: TOO_FEW_TABS=2 

12/02/12 :28 : mapred.JobClient: Job Counters 





4. 使 用 浏览 器 打开 MapReduce web UI (默认 情况 下 ，MapReduce web 
UI 是 在 JobTracker 主 机 的 50 030 端 口 ) 。 选 择 Completed Jobs 列表 
底部 的 作业 ， 会 看 到 类 似 F 面 的 屏幕 截图 。 
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5. 点 击 map 任 务 的 链接 ， 你 应 当 看 到 一 个 概述 页 面 ， 如 下 图 所 示 。 
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当 与 下 图 类 似 . 
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可 在 Task Logs 列 选择 想 要 显示 的 数据 量 。 点 击 Al 链接 ， 结 果 如 下 
图 所 示 。 

TAIEC 
:ee “ 则 二 0 Of 加 + 


Dnt | rs io0r wenct 201, Xx | 篇 iew ri 


Hn6)9 O0023 mm 000000 7 








Task Logs: "attempt 201202111619 0023_m 000000 0" 
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©00146,. 866€ INFO 0Og0, aecbhe hedoo ,papredg Taokenoer! Tmok mtrtempr 208202111619 002 3 | poo000 : 0 done. 
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现在 ， 登 录 到 一 个 任务 市 点 并 Try 路 径 




















下 的 文件 。 每 个 任务 都 有 一 个 专用 目录 ， 该 目录 下 有 知 干 文件 。 我 
们 要 查看 的 是 stderr 。 


原理 分 析 


为 了 添加 新 计数 器 ， 我 们 需要 做 的 第 一 件 事 是 创建 一 个 承载 它们 的 标准 
Java 枚 举 。 本 例 中 ， 我 们 创建 了 一 个 LineCounters ，Hadoop 将 其 视 为 计 
数 吉 组。 在 LineCounters 中 ， 有 3 个 计数 器 分 别 对 不 符合 数据 格式 的 总 行 
数 ， 以 及 更 细 力 度 地 对 少 于 或 多 于 6 个 字段 的 行 的 数量 进行 统计 。 这 就 
是 创建 新 计数 器 集合 所 需 做 的 所 有 事情 一 一 定义 枚 举 类 型 。 计 数 开 始 
后 ，Hadoop 框 架 会 自动 维护 计数 器 的 值 。 

为 了 将 中 标 数据 加 入 到 计数 器 ， 我 们 通过 Reporter 对 象 增加 计数 器 的 
值 。 本 例 中 ， 每 次 我 们 遇 到 错误 数据 行 ， 少 于 6 个 字段 的 行 或 者 多 于 6 个 
字段 的 行 时 ， 分 别 将 相应 计数 器 的 值 加 1。 


ee 计数 器 的 值 ， 假 如 它 是 10 的 倍数 ， 执 行 下 列 任 














。 设置 任务 状态 以 反映 实际 情况 ; 


。 使 用 标准 的 Java System.err.println 机 制 向 stderr 写 入 类 似 
信息 


随后 ， 我 们 转向 MapReduce UI， 验 证 是 否 可 在 作业 概览 中 看 到 计数 器 总 
数 ， 是 否 可 在 任务 列表 中 看 到 带 有 自 定义 状态 消息 的 所 有 任务 。 


之 后 ， 我 们 浏览 网 页 用 户 接 口 ， 查 看 个 别 作 业 的 计数 占 。 对 于 我 们 在 详 
细 页 面 看 到 的 任务 ， 可 以 反击 伍 看 任务 日 志文 件 。 


查看 其 中 一 个 节点 ， 我 们 发 现 ，Hadoop 为 每 个 任务 留存 了 日 志 ， 存 放 在 
文件 系统 的 {HADOOP_HOME}/1logs/userlogs 目录 下 。 在 每 个 任务 的 子 
目录 下 ， 有 标准 流 和 普通 任务 日 志 的 文件 。 如 你 所 见 ， 忙 碌 节 点 留 下 了 
大 量 的 任务 日 志 目 录 ， 从 中 找 出 我 们 感 兴趣 的 任务 目录 不 是 一 件 容 易 的 
事 。 事 实证 明 ， 使 用 网 页 接口 查阅 此 类 数据 更 为 高 效 。 


技巧 : 假如 你 用 的 是 Hadoop context 对 象 API， 就 要 
用 Context .getCounter() .increment() 方法 访问 计数 器 。 




















信息 太 多 


虽然 不 必 再 考虑 如 何 获取 作业 状态 和 其 他 信息 ， 但 似乎 突然 间 出 现 了 太 
多 令 人 困惑 的 信息 可 供 选择 。 问 题 的 实质 是 ， 在 全 分 布 式 模式 下 ， 数 据 
散布 在 各 个 节点 ， 因 此 我 们 无 法 采用 传统 的 单 击 调试 方法 调试 
MapReduce 作 业 。Ruby Streaming 任 务 可 轻易 在 命令 行 下 运行 ， 命 令 行 
的 输出 为 调试 问题 提供 了 帮助 ， 而 使 用 Java 语 言 实现 的 任务 却 无 法 模拟 
该 行为 。 因 此 ， 开 发 者 需要 特别 考虑 ， 调 试 程序 可 能 会 用 到 哪些 作业 运 
行 时 信息 。 这 应 当 包 括 一 般 性 的 作业 运行 状态 ， 也 应 当 包 括 可 以 为 进 一 
步调 查 问 题 提供 帮助 的 其 他 信息 。 


计数 器 、 任 务 状 态 消 息 以 及 老式 Java 日 志 可 以 协同 工作 。 假 如 你 对 某 种 
状况 比较 关注 ， 将 其 设 为 计数 医 ， 每 次 发 生 这 种 状况 时 计数 器 都 会 记 

录 。 同 时 在 发 生 这 种 状况 时 ， 设 置 任务 状态 消 轧 。 如 果 任 务 运行 过 程 中 
产生 了 一 些 特 殊 数 据 ， 将 其 写 入 到 stderr 。 由 于 很 容易 看 到 计数 器 的 
值 ， 你 可 以 在 作业 完成 之 后 迅速 得 知 你 所 关注 的 情况 是 否 发 生 过 。 而 

且 ， 在 网 页 用 户 界 面 中 ， 一 眼 束 能 看 出 你 所 关注 的 情况 发 生 在 哪个 任务 
运行 过 程 中 。 并 且 ， 你 可 以 在 网 页 用 户 界 面 中 反击 得 看 该 任务 的 详细 日 

















其 实 ， 你 不 需要 等 到 整个 作业 完成 后 才 开 始 调查 。 随 着 作业 的 执行 ， 计 
数 锅 和 任务 状态 信息 会 在 网 页 用 户 界 面 实 时 更 新 ， 所 以 只 要 计数 器 或 任 
务 状态 信息 提醒 你 出 现 了 关注 的 情况 ， 你 就 可 以 铸 手 进行 调 碍 。 尤 其 是 
和 








4.12 小结 


本 章 介 绍 了 如 何 开发 MapReduce 作 业 ， 重 点 讲述 了 可 能 经 常会 碰 到 的 一 
些 问 题 及 其 解决 方法 。 特 别 是 ， 我 们 学 习 了 如 何 使 用 Hadoop Streaming 

脚本 语言 编写 map 和 reduce 任 务 ， 以 及 如 何 有 效 使 用 Streaming 技 术 进 行 

早期 的 作业 原型 设计 和 最 初 的 数据 分 析 。 


我 们 同时 也 了 解 到 ， 使 用 脚本 语言 编写 任务 有 利于 在 命令 行 下 直接 测试 
和 调试 代码 。 我 们 还 学 习 了 Java API， 使 用 ChainMapper 类 可 以 把 复杂 
的 map 任 务 分 解 成 一 系列 较 小 且 更 有 针对 性 的 map 任 务 。 


紧 接着 ， 我 们 学 习 了 Distributed Cache 如 何在 所 有 节点 间 共 享 数 据 。 它 
将 数据 文件 从 HDFS 找 贝 到 每 个 节点 的 本 地 文件 系统 ， 使 我 们 可 以 在 本 
地 访问 这 些 数据 。 我 们 还 学 到 ， 通 过 定义 Java 枚 举 可 以 为 计数 器 组 添加 
计数 器 并 利用 Hadoop 框 架 目 动 维护 计数 器 值 。 此 外 ， 我 们 也 了 解 了 如 何 
组 合 运用 计数 器 、 任 务 状 态 信息 和 debug 日 志 进 行 高 效 的 作业 分 析 。 


在 开发 MapReduce 作 业 的 过 程 中 ， 你 会 经 常 碰 到 大 部 分 前 述 技术 和 方 
法 。 下 一 革 ， 我 们 将 探索 一 系列 更 高 级 的 且 不 会 经 常 磁 到 的 技术 ， 但 它 
们 却 十 分 重要 。 








第 5 章 ”局 级 MapReduce 拉 术 


既然 我 们 已 经 学 习 了 一 些 MapReduce 基 础 知识 及 其 使 用 方法 ， 下 面 将 研 
究 更 多 MapReduce 相 关 技 术 和 概念 。 


本 章 包括 以 下 内 容 : 
。 对 数据 执行 联结 操作 ; 
。 用 MapReduce 实 现 图 算法 ; 
。 如 何 用 与 语言 无 关 的 方式 表示 复杂 数据 类 型 。 


同时 ， 在 研究 学 习 案 例 的 过 程 中 ， 我 们 将 强调 一 些 实用 的 技巧 、 罕 门 和 
某 些 领域 的 最 佳 实践 等 内 容 。 








5.1 初级 、 高 级 还 是 中 级 


本 章 标 题 中 出 现 的 “高 级 ”一 词 有 点 和 危险， 因为 复杂 性 是 一 个 主观 概念 。 

因此 ， 我 们 需要 界定 清楚 “高 级 ”一 词 涵 瘟 的 内 容 。 我 们 从 不 认为 本 章 要 
讲 的 内 容 是 需要 花费 多 年 时 间 才 能 领悟 到 的 大 智慧 。 反 之 ， 我 们 也 不 认 
为 本 章 讨论 的 一 些 技术 和 问题 适合 Hadoop 新 手 。 


因此 ， 本 章 使 用 “高 级 ”一 词 指 代 最 初 几 天 或 几 周 不 曾 学 到 或 遇 到 的 技 
术 ， 或 者 即便 遇 到 过 却 没 有 完全 理解 的 内 容 。 这 些 技术 不 仅 提 供 了 特定 
问题 的 专门 解决 方案 ， 也 强调 了 如 何 使 用 标准 Hadoop 与 相关 API 解 决 明 
显 不 适用 于 MapReduce 处 理 模型 的 问题 。 之 后 ， 我 们 也 会 提 到 一 些 蔡 代 
方法 ， 虽 然 本 章 不 会 具体 学 习 如 何 实现 这 些 方法 ， 但 它们 可 能 有 助 于 读 
者 更 深入 地 研究 MapReduce。 


我 们 要 学 习 的 第 一 个 案例 就 属于 后 一 种 情况 : 在 MapReduce 作 业 中 执行 
各 种 联结 操作 。 











5.2 多 数据 源 联结 


没有 问题 会 使 用 一 个 单独 的 数据 集 。 在 许多 情况 下 ， 有 一 些 简单 的 方法 
可 以 避免 在 MapReduce 框 架 中 处 理 多 个 单独 却 又 相关 的 数据 集 。 


当然 ， 本 章 提 到 的 联结 类似 于 关系 数据 库 中 的 概念 。 在 关系 数据 库 中 ， 
将 数据 分 成 多 个 表 ， 然 后 使 用 SQL 联结 语句 从 多 个 数据 源 获取 数据 是 很 
目 然 的 事 。 一 个 典型 例子 是 ， 主 表 仪 包含 特定 资料 的 唯一 JD， 可 以 使 用 
与 其 他 表 的 联结 操作 获取 该 ID 指 代 的 数据 。 


5.2.1 不 适合 执行 联结 操作 的 情况 


在 MapReduce 中 是 可 以 实现 联结 操作 的 。 实 际 上 ， 稍 后 我 们 会 看 到 ， 问 
题 并 个 在 于 是 台 其 各 实现 该 功能 的 能 习 ， 而 在 于 从 众多 洗 在 策略 中 选择 
哪 一 个 。 


然而 ，MapReduce 联 结 通 常 较 难 编写 ， 而 且 效 率 低 下 。 无 论 你 用 了 多 长 
时 间 Hadoop， 都 会 遇 到 需要 进行 联结 操作 的 场景 。 不 过 ， 如 果 需 要 在 
MapReduce 作 业 中 频繁 执行 联结 ， 你 可 能 就 要 问 一 下 自己 ， 数 据 的 结构 
性 是 不 是 很 强 以 及 是 不 是 比 预想 的 存在 更 多 内 在 关联 。 如 果 是 这 样 的 
话 ， 可 能 你 需要 考虑 使 用 Apache Hive 〈 第 8 章 的 主要 话题 ) 或 Apache 
Pig 〈 在 第 8 章 会 简要 提 到 ) 。 二 者 都 提供 了 基于 Hadoop 的 附加 层 ， 人 多 
a a 比如 Hive 使 用 的 就 是 一 种 SQL 语言 


5.2.2 ”map 端 联结 与 reduce 靖 联结 的 对 比 


在 Hadoop 中 ， 有 两 种 基本 方法 可 以 实现 数据 联结 。 我 们 根据 数据 联结 发 
生 在 作业 执行 的 哪个 阶段 ， 将 它们 分 别 命名 为 map 端 联络 和 reduce 端 联 
结 。 无 论 哪 种 情况 ， 都 需要 汇集 多 个 数据 流 并 通过 一 些 逻 辑 执行 数据 联 
结 。 这 两 种 方法 的 基本 区 别 在 于 ， 多 个 数据 流 整 合 是 发 生 在 mapper 函 数 
还 是 reducer 函 数 。 


顾名思义 ，map 端 联结 把 数据 流 读 入 mapper， 并 利用 编码 在 mapper 函 数 


内 部 的 逻辑 执行 联结 操作 。map 端 联结 的 巨大 优势 在 于 ， 通 过 在 mapper 
中 执行 全 联结 (更 关键 的 是 减少 数据 量 ) ， 传 输 给 reduce 阶 段 的 数据 量 

















大 幅 下 降 。map 端 联结 也 有 缺点 : 要 么 得 确保 其 中 一 个 数据 源 的 数据 规 
模 很 小 ， 要 么 需要 按照 特定 规则 定义 作业 的 输入 。 通 常 ， 唯 一 的 方法 是 
使 用 另 一 个 MapReduce 作 业 对 数据 进行 预 处 理 ， 而 该 作业 的 唯一 目的 就 
是 为 map 端 联结 准备 数据 。 


与 之 相反 ，reduce 端 联结 不 在 map 阶 段 对 多 数据 流 执行 联结 操作 ， 而 是 
把 联结 操作 放 在 reduce 阶 段 进 行 。 这 种 方法 的 潜在 缺陷 是 ， 所 有 数据 源 
的 全 部 数据 都 经 过 shuffle 阶 段 传 入 reducer， 而 其 中 大 部 分 数据 可 能 被 联 
结 操 作 丢 弃 。 对 大 数据 集 而 言 ， 这 将 是 一 个 明显 开销 。 


reduce 并 联结 的 主要 优点 是 简单 。 开 发 者 基本 上 可 以 决定 作业 结构 ， 而 
且 通 常 为 相关 数据 集 定 义 reduce 涡 联结 的 方法 是 很 镜 早 的 。 下 面 看 一 个 
例子 。 


5.2.3 ”匹配 账户 与 销售 信息 


很 多 公司 的 销售 记录 与 客户 信息 都 是 分 开 管理 的 。 当 然 ， 二 者 之 间 存 在 
某 种 关联 : 通常 销售 记录 包含 客户 账户 的 唯一 JD， 而 客户 账户 则 与 某 些 
销售 记录 相关 。 


在 Hadoop 中 ， 这 些 内 容 以 两 类 数据 文件 表示 : 一 类 文件 包含 用 户 ID 记 
录 和 销售 信息 ， 力 一 类 文件 包含 每 个 客户 账户 的 全 部 数据 。 


最 常见 的 任务 就 是 使 用 这 些 数据 源 生 成 报告 。 举 个 例子 ， 我 们 想 了 解 销 
售 总 额 和 针对 每 个 客户 的 销售 额 ， 但 我 们 更 愿意 看 到 销售 额 与 客户 姓名 
的 对 应 关系 ， 而 非 匿 名 的 ID 号 。 这 一 点 非常 重要 ， 当 客户 服务 代表 想 致 
电 最 活跃 的 顾客 〈 通 过 分 析 销 售 记 录 得 出 活跃 客户 ) 时， 他 想 要 的 是 客 
户 姓名 ， 不 是 数字 。 



































5.3 ”实践 环节 : 使 用 MultipleInputs 实 现 reduce 闪 
联结 


我 们 可 以 通过 执行 reduce 问 联结 完成 上 节 提 到 的 客户 -销售 额 报告 。 执 行 
以 下 步骤。 


1. 把 下 列 以 tab 为 分 隔 符 的 内 容 保存 为 sales.txt 文件 。 


00135.992012-03-15 
00212.492004-07-02 
00413 .422005-12-20 
003499 .992010-12-20 


00178 .952012-04-02 
00221.992006-11-30 
00293.452008-09-10 
0019.992012-05-17 


2. 把 下 列 以 tab 为 分 隔 符 的 内 容 保存 为 accounts .txt 。 


001John AllenStandard2012-03-15 
002Abigail SmithPremium2004-07-13 
003April StevensStandard2010-12-20 
004Nasser HafezPremium2001-04-23 


3. 把 上 述 两 个 数据 文件 找 贝 至 HDFS 。 


$ hadoop fs -mkdir sales 

$ hadoop fs -put sales.txt sales/sales.txt 
$ hadoop fs -mkdir accounts 

$ hadoop fs -put accounts/accounts.txt 


4. 把 以 下 代码 保存 为 ReduceJoin.java 文件 。 














import java.io.* ， 


import org.apache.hadoop.conf.Configuration,; 
import org.apache.hadoop.fs.Path,; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.*; 

import org.apache.hadoop.mapreduce.1ib.input.*,; 
import org.apache.hadoop.mapreduce.1ib.input.*,; 


public class ReduceJoin 


{ 


public static class SalesRecordMapper 
extends Mapper 


{ 


public void map(Object key, Text value, Context context ) 
throws IOException, InterruptedException 


String record = Value.toString() ， 
String[] parts = record.split("\t") ， 


context ,write(new Text(parts[0]), new 
Text("SalesNt"+parts[1])) ， 


} 
3 


public static class AccountRecordMapper 
extends Mapper 


{ 
public void map(Object key, Text value, Context context ) 
throws IOException, InterruptedException 


{ 
String record = Value.toString() ; 
String[] parts = record.split("\t") ， 


context.write(new Text(parts[0]), new 
Text("accounts\t"+parts[1])) ; 


} 
} 
public static class ReduceJoinReducer 
extends Reducer 


t 
public void reduce(Text key, Iterable values,Context context) 
throws IOException, InterruptedException 
{ 
String name = "" 


double total = 0.0 ， 
int count = 0，) 
for(Text t: values) 
String parts[] = t.toString().split("\t") ， 
if (parts[0].equals("sales")) 


Count++ ， 
total+= Float.parseFloat(parts[1]) ， 


else if (parts[0].equals("accounts")) 


{ 
} 


name = parts[1] ， 
} 


String str = String.format("%d\t%f", count, total) ， 
context.write(new Text(name), new Text(str)) ， 
} 
} 
public static void main(String[] args) throws Exception 


Configuration conf = new Configuration(); 

Job job = new Job(conf，"Reduce 端 join")，; 

job ,setJarByClass(ReduceJoin,.class) 

job .setReducerClass(ReduceJoinReducer ,class ) ; 

job.setOutputkeyClass(Text.class); 

job.setOutputValueClass(Text.class); 
MultipleInputs.addInputPath(job, new Path(args[0]), 


TextInputFormat.class, SalesRecordMapper.class) ，; 
MultipleInputs.addInputPath(job, new Path(args[1]), 
TextInputFormat.class, AccountRecordMapper.class) ，; 
Path outputPath = new Path(args[2]); 
FileOutputFormat.setOutputPath(job, outputPath); 
outputPath.getFileSystem(conf).delete(outputPath); 


System.exit(job.waitForCompletion(true) ? 0 :; 1); 





5. 编译 ReduceJoin.java 文件 并 把 它 增 加 到 join.jar 文件 中 。 


$ javac ReduceJoin.java 
$ jar -cvf join.jar *.class 


6. 通过 执行 下 列 命 令 行 运行 作业 。 


7. 检查 结果 文件 。 


$ hadoop fs -cat /user/garry/outputs/part-r-00000 
John Allen 3 124.929998 


Abigail Smith 3 127 .929996 
April Stevens 1 499 ,989990 
Nasser Hafez 1 13.420000 





原理 分 析 


首先 ， 我 们 创建 了 本 例 用 到 的 数据 文件 。 之 所 以 创建 了 两 个 小 数据 集 ， 
是 因为 这 样 更 易于 跟踪 输出 结果 。 我 们 定义 的 第 一 个 数据 集 是 账户 详 
情 ， 它 由 4 个 字段 组 成 。 

。 账户 ID 

。 客户 姓名 

。 账户 类 型 

。 开户 日 期 

接着 ， 我 们 创建 了 销售 记录 数据 集 ， 它 由 如 下 3 个 字段 组 成 。 


。 购买 者 账户 ID 


。 销售 额 
。 售 出 时 间 


当然 ， 实 际 的 账户 信息 和 销售 记录 的 字段 要 比 这 里 提 到 的 多 很 多 。 创 建 
了 这 些 文件 后 ， 我 们 将 其 放 到 HDFS 。 


然后 ， 我 们 创建 了 ReduceJoin.java 文件 ， 它 看 起 来 很 像 我 们 之 前 用 
过 的 MapReduce 作 业 。 这 个 ReduceJoin 作 籽 的 某 些 内 容 使 它 变 得 与 众 不 
同 ， 并 实现 了 一 个 联结 操作 。 


首先 ，ReduceJoin 类 定义 了 两 个 mapper。 我 们 之 前 曾 讲 过 ，MapReduce 
作业 可 以 包含 多 个 链 式 执 行 的 mapper。 但 本 例 中 ， 我 们 希望 为 每 个 输入 
数据 源 都 实现 不 同 的 mapper。 于 是 ， 我 们 分 别 在 SalesRecorkMapper 
和 AccountRecordMapper 类 中 定义 了 销售 数据 和 账户 数据 。 我 们 用 到 
J 了 org.apache.hadoop.mapreduce.1ib.io 包 里 的 MultipleInputs 
类 ， 如 下 所 示 。 





MultipleInputs.addInputPath(job, new Path(args[6])， 
TextInputFormat.class, SalesRecordMapper.class) ; 
MultipleInputs.addInputPath(job, new Path(args[1])， 


TextInputFormat.class, AccountRecordMapper.class) ; 





如 你 所 见 ， 之 前 的 例子 中 只 有 一 个 输入 数据 源 ， 而 本 例 则 与 之 不 
同 ，MultipleInputs 类 人 允许 我 们 有 多 个 数据 源 ， 并 为 每 个 数据 源 指定 
独立 的 输入 格式 和 mapper。 


mapper 的 实现 相当 简单 ，SalesRecordMapper 类 的 输出 格式 为 
<account number>,<sales value> ， 而 AccountRecordMapper 类 
的 输出 格式 为 <account number> ,<client name> 。 因 此 ， 我 们 把 排 
序 后 的 各 次 销售 额 和 客户 姓名 传 入 reducer， 在 reducer 中 执行 数据 联结 。 


请 注意 ， 实 际 上 两 个 mapper 都 输出 了 多 余数 据 。SalesRecordMapper 
类 在 输出 销售 额 时 以 sales 为 前 级 ， 而 AccountRecordMapper 类 以 
account 为 前 组 。 


如 果 我 们 看 一 下 reducer， 就 会 明白 这 样 做 的 原因 。reducer 会 获取 给 定 键 





的 每 条 记录 ， 但 如 果 不 使 用 这 些 明 确 的 标签 ， 我 们 就 不 知道 给 定 值 是 
sales mapper 的 输出 还 是 account mapper 的 输出 ， 因 此 也 就 不 知道 该 怎样 
处 理 这 些 数据 。 


因此 ，ReduceJoinReducer 类 根据 Iterator 对 象 中 的 值 来 自 哪个 
mapper， 决 定 对 其 采取 相应 的 处 理 措施 。AccountRecordMapper 类 的 
输出 《应 该 有 且 仅 有 一 个 ) 被 用 于 生成 作业 最 终 输 出 结果 中 的 客户 姓 
名 。 人 针对 每 位 客户 的 销售 记录 (很 可 能 是 多 个 的 ， 因 为 大 部 分 客户 会 买 
多 样 商 品 ) 被 用 于 计算 订单 总 数 和 总 消费 额 。 因 此 ，reducer 输 出 数据 的 
键 是 账户 持 有 人 姓名 ， 值 是 包含 订单 总 数 和 总 消费 额 的 字符 串 。 


我 们 编译 并 执行 ReduceJoin 类 。 请 注意 ， 我 们 输入 了 三 个 参数 ， 其 中 
两 个 参数 表示 输入 路 径 ， 另 一 个 参数 表示 输出 路 径 。 根 

据 MultipleInputs 类 的 不 同 配置 方式 ， 我 们 必须 保证 以 正确 的 顺序 输 
入 三 个 参数 。MapReduce 作业 中 不 存在 判定 哪 种 类 型 的 文件 在 哪个 目录 
下 的 动态 机 制 。 


ee 我 们 检查 输出 文件 并 确认 输出 文件 包含 了 客户 姓名 及 其 总 
消费 额 。 





DataJoinMapper 和 TaggedMapperOutpnut 


还 有 一 种 实现 reduce 端 联结 的 方法 ， 这 种 方法 更 为 复杂 ， 而 且 是 面向 对 
象 的 。DataJoinMapperBase 和 TaggedMapOutput 类 

在 org.apache.hadoop.contrib.join 包 里 ， 它 们 封装 了 获取 map 输 
出 标签 并 将 它们 传 给 reducer 的 方法 。 也 就 是 说 ， 有 了 这 种 方法 ， 我 们 不 
必 再 像 刚才 那样 显 式 定义 标签 字符 串 ， 然 后 小 心 解析 reducer 收 到 的 数 
据 ， 才 能 识别 数据 是 哪个 mapper 输 出 的 。Hadoop 提 供 的 
DataJoinMapperBase 和 TaggedMapOutput 类 已 经 封装 了 实现 该 功能 
的 函数 。 


尤其 是 处 理 数值 型 或 非 文 本 型 数据 时 ， 这 个 功能 特别 重要 。 因 为 如 果 像 
之 前 例子 那样 创建 明确 的 标签 的 话 ， 我 们 必须 将 整 型 数据 转换 成 字符 
串 ， 然 后 才能 添加 所 要 求 的 标签 前 级 。 与 使 用 标准 格式 的 数值 类 型 并 使 
用 其 他 类 来 实现 标签 的 方法 相 比 ， 上 述 方法 的 效率 要 低 得 多 。 


Hadoop 框 架 文 持 复 保 的 标签 生成 以 及 标签 分 组 ， 我 们 之 前 没有 实现 这 些 





功能 。 要 使 用 这 些 功能 ， 还 需要 完成 一 些 其 他 工作 ， 包 括 重 写 东 些 方法 
以 及 使 用 另外 的 map 基 类 。 对 于 像 上 例 这 么 简单 的 联结 来 讲 ， 使 用 
Hadoop 框 架 提 供 的 标签 处 理 机 制 有 点 大 材 小 用 ， 但 如 果 要 实现 非 第 复杂 
的 标签 处 理 代码 ， 值 得 试 试 它 。 


5.3.1 实现 map 闹 联结 
要 想 在 某 个 阶段 实现 数据 联结 ， 必 须 能 够 在 相应 的 时 间 访 问 每 个 数据 集 


的 适用 记录 。 这 束 是 reduce 问 联结 易于 实现 的 原因 。 尺 管 reduce 亲 联结 
会 消耗 额外 的 网 络 流 量 ， 但 显然 ，reducer 掌 握 所 有 与 联结 键 相 关 的 记 
录 。 





如 果 我 们 想 在 mapper 中 执行 联结 ， 上 述 条 件 并 不 容易 满足 。 我 们 不 能 保 
证 输入 数据 的 结构 化 程度 足够 好 ， 可 以 同时 读 出 关联 记录 。 这 里 我 们 大 
避免 从 多 个 外 部 源 读 取 数据 或 预 处 理 数据 使 其 可 用 于 
map 冰 联结。 








1. 使 用 Distributed Cache 








实现 第 一 种 方法 的 最 简单 方式 就 是 ， 只 使 用 一 个 数据 集 并 把 它 放 入 上 一 
章 讲 到 的 Distributed Cache。 访 方法 可 用 于 多 个 数据 源 ， 但 简单 起 见 ， 
我 们 这 里 只 讨论 两 个 数据 源 的 情况 。 


如 果 我 们 有 一 个 较 大 数据 集 和 一 个 较 小 数据 集 ， 例 如 之 前 的 销售 记录 和 
账户 信息 ， 一 种 做 法 是 把 账户 信息 打包 放 入 Distributed Cache。 然 后 每 
个 mapper 将 这 些 数据 读 入 一 个 高 效 的 数据 结构 ， 如 使 用 联结 键 作 为 哈 希 
键 的 哈 希 表 。 接 着 处 理 销售 记录 ， 在 处 理 过 程 中 ， 可 以 从 哈 希 表 中 获取 
要 用 的 每 条 账户 信息 。 


这 种 方法 非常 有 效 ， 尤 其 是 当 较 小 的 数据 集 可 以 轻易 读 入 内 存 时 ， 这 是 
一 种 很 好 的 做 法 。 然 而 ， 我 们 并 非 总 是 如 此 幸运 ， 有 时 最 小 数据 集 的 规 
模 也 很 大 ， 以 至 于 无 法 将 其 拷贝 到 每 侣 工作 机 并 保存 在 内 存 里 。 











一 展 身 手 : 实现 map 端 联结 





以 刚才 的 销售 记录 /账户 记录 为 例 ， 使 用 Distributed Cache 实 现 map 端 联 
结 。 如 果 将 账户 记录 载 入 哈 希 表 中 实现 账户 ID 和 客户 名 字 的 映射 ， 那 么 





就 可 以 用 账户 ID 获取 客户 姓名 。 这 样 就 可 以 在 mapper 处 理 销售 信息 时 实 
现 map 端 联结 。 


2. 裁 术 数据 以 适合 缓存 大 小 


如 果 最 小 数据 集 对 Distributed Cache 来 说 还 是 太 大 ， 并 不 需要 舍弃 所 有 
字段 。 比 如 ， 在 前 面 的 例子 中 ， 我 们 仅 从 每 条 记录 中 提取 了 两 个 字段 并 
丢弃 了 作业 不 需要 的 其 他 字段 。 实 际 上 ， 账 户 有 多 个 属性 ， 这 种 减少 数 
据 量 的 方法 会 显著 降低 数据 规模 。 通 常 ，Hadoop 可 访问 的 数据 是 完整 数 
据 集 ， 但 是 我 们 需要 的 只 是 其 中 知 干 字段 。 


因此 ， 在 此 情况 下 ， 我 们 可 以 从 完整 数据 集中 提取 MapReduce 作 业 需 要 
9 通过 这 种 方式 创建 的 裁剪 数据 集 的 大 小 完全 适合 在 缓存 中 使 


提示 : 这 种 方法 与 面 癌 列 的 数据 库 (column-oriented databases) 的 
概念 非常 相似 。 传统 的 关系 数据 库 每 次 存储 一 行 数据 ， 这 就 意味 着 
需要 读 取 完整 的 一 行 ， 然 后 从 中 提取 某 一 列 的 内 容 。 基 于 列 的 数据 库 
则 是 分 别 存储 每 一 列 ， 人 允许 每 次 查询 直接 读 取 用 户 感 兴 趣 的 列 。 


如 果 采 用 这 种 方法 ， 需 要 考虑 何 种 机 制 可 以 被 用 来 生成 数据 子 集 ， 以 及 
执行 这 些 操作 的 频率 。 一 种 直接 的 方法 是 编写 另外 一 个 MapReduce 作 
业 ， 用 它 完 成 必需 的 过 滤 ， 在 后 续 的 作业 中 将 该 作业 的 输出 用 在 
Distributed Cache 中 。 如 果 较 小 数据 集 的 变动 很 小 ， 就 避免 了 按照 预定 
计划 生成 裁剪 数据 集 的 麻烦 。 例 如 ， 每 晚 刷新 数据 集 。 人 和 否则， 你 需要 用 
到 由 两 个 MapReduce 作 业 组 成 的 作业 链 : 一 个 作业 用 于 生成 裁剪 数据 
人 一 个 作业 利用 原始 数据 集 和 Distributed Cache 中 的 数据 执行 联结 
保 作 。 




















3. 使 用 代表 数据 而 非 原始 数据 


有 时 ， 我 们 使 用 茶 个 数据 源 并 非 是 为 了 获取 额外 数据 ， 而 是 为 了 推导 出 
一 些 辅助 决策 的 结论 。 例 如 ， 我 们 可 能 和 希望 通过 分 析 销 售 记录 ， 从 中 提 
取 那 些 配送 地 址 属于 茶 一 特定 区 域 的 记录 。 


在 这 种 情况 下 ， 我 们 可 以 将 所 需 数据 的 规模 降 至 一 列 合适 的 销售 记录 ， 
它们 更 易 被 放 入 缓存 。 同 样 ， 我 们 可 以 将 其 存 入 只 存储 有 效 记录 的 蛤 希 








表 ， 甚 至 使 用 类 似 排 序列 表 或 排序 树 的 形式 。 在 可 以 接受 误 报 却 须 保证 
没有 漏 报 的 情况 下 ， 可 以 使 用 Bloom filter 紧凑 地 表示 此 类 信息 。 


可 以 看 出 ， 采 用 这 种 方法 实现 map 端 联结 需要 创新 ， 并 与 数据 集 的 性 质 
和 手头 的 问题 有 很 大 关系 。 但 是 请 记 住 ， 最 好 的 关系 型 数据 库 管 理 员 耗 
费 大 量 时 间 剔 除非 必要 的 数据 处 理 ， 以 达到 优化 查询 的 目的 。 因 此 ， 读 
者 需要 时 币 问 问 上 自己 是 人 否 真 的 需要 处 理 所 有 数据 。 





4. 使 用 多 个 mapper 


从 根本 上 说 ， 上 述 撤 术 都 在 尽力 避免 实现 多 个 完整 数据 集 之 间 的 联结 。 
但 有 时 不 得 不 这 样 做 ， 因 为 你 可 能 会 遇 到 非常 庞大 的 数据 集 ， 而 且 无 法 
用 这 些 方 法 合并 。 


org.apache.hadoop.mapreduce.1ib.join 包 里 有 一 些 类 支持 这 种 需 
求 。CompositeInputFormat 是 一 个 有 趣 的 主 类 ， 它 使 用 用 户 定 义 的 
函数 合并 多 个 数据 源 的 记录 。 


这 种 方法 的 主要 缺点 是 ， 所 有 数据 源 必须 以 相同 键 为 索引 ， 并 且 以 相同 
方法 进行 排序 和 分 块 。 原 因 很 简单 ， 从 每 个 数据 源 读 取 数据 时 ，Hadoop 
框架 需要 知道 某 个 特定 键 是 否 出 现在 每 条 记录 中 。 假 如 每 个 分 块 都 是 有 
序 的 ， 并 包括 相同 的 键 ， 可 以 使 用 简单 的 欠 代 程序 完成 所 需 的 匹配 。 


显然 ， 要 处 理 的 数据 不 可 能 恰好 满足 上 述 条 件 ， 所 以 读者 需要 目 己 编写 
预 处 理 作业 ， 将 所 有 的 输入 数据 源 转化 成 正确 的 顺序 和 分 块 结构 。 


提示 : 本 方 讨论 的 内 容 开始 涉及 分 布 式 联结 和 并 行 联结 算法 ， 这 些 
课题 都 经 历 了 广泛 的 学 术 研 究 和 商业 研究 。 如 采 你 对 这 些 内 容 感 兴趣 
并 想 学 习 更 多 的 基础 理论 ， 到 http:/scholar.google.com 搜索 相关 内 

容 。 











5.3.2 是否 进行 联结 


结束 了 MapReduce 的 联络 之 旅 后 ， 让 我 们 回 到 最 开头 的 问题 : 你 是 人 否 真 
要 进行 联结 操作 ? 该 者 党 音 需 要 在 较 易 实现 却 效率 不 高 的 reduce 端 联结 
和 较为 高 效 也 更 为 复杂 的 map 问 联结 之 间 做 出 选择 。 我 们 已 看 到 ， 的 确 
可 在 MapReduce 中 实现 多 个 数据 源 的 联结 ， 但 有 时 源 数据 并 不 适合 进行 





联结 操作 。 如 果 执 行 联结 操作 需要 用 户 投 入 大 量 精力 ， 我 们 推荐 使 用 
Hive 或 Pig。 显 然 ， 我 们 可 以 使 用 上 述 工具 ， 它 们 在 后 台 生 成 MapReduce 
代码 ， 并 直接 实现 map 端 和 reduce 病 联结 。 但 最 好 使 用 一 个 精心 设计 、 
经 过 优化 的 代码 库 完 成 这 些 工 作 ， 而 不 要 自行 实现 。 这 也 正 是 我 们 要 使 
用 Hadoop 而 不 自己 编号 分 布 式 处 理 框架 的 原因 。 











5.4 图 算法 


所 有 杰出 的 计算 机 科学 家 都 认为 图 数据 结构 是 最 强大 的 工具 之 一 。 很 多 
复杂 系统 都 由 图 来 表示 ， 人 至 少儿 十 年 前 就 出 现 了 强大 的 算法 知识 体系 来 
解决 大 量 图 问题 。 但 由 于 其 本 身 性 质 ， 图 及 图 算法 通常 很 难 用 
MapReduce 范 式 描述 。 





5.4.1 Graph 101 


退 一 步 ， 我 们 先 对 图 的 相关 术语 进行 定义 。 图 是 由 多 个 通过 边 相连 的 

市 尽 ( 也 被 称 为 项 点 ) 组 成 的 数据 结构 。 根 据 图 的 类 型 ， 边 可 以 是 单 癌 
边 也 可 以 是 双 同 边 ， 也 可 以 有 与 之 关联 的 权重 。 例 如 ， 一 个 城市 的 路 网 
可 以 看 做 一 张 图 ， 其 中 路 是 图 的 边 ， 路 的 交点 和 感 兴趣 的 点 是 图 的 和 

点 。 有 些 路 是 单 问 路 ， 有 些 不 是 ， 有 些 路 要 收 通行 费 ， 有 些 路 在 茶 些 时 
候 处 于 封闭 状态 ， 等 等 。 


对 物流 公司 而 言 ， 选 择 一 条 从 一 个 地 方 到 另 一 个 地 方 的 最 佳 路 径 可 以 贡 
省 很 多 钱 。 不 同 的 图 算法 通过 综合 考虑 各 条 路 的 属性 得 出 最 佳 路 径 。 这 
些 属性 包括 是 人 否 是 单行 道 ， 以 及 用 权重 表示 的 通行 成 本 ， 它 决定 了 特定 
道路 是 否 更 具 吸 引力 。 

一 个 更 时 此 的 例子 是 社交 关系 图 ， 随 看 Facebook 之 类 的 网 站 越 来 越 受 欢 
迎 ， 这 种 社交 关系 图 也 逐渐 普及 起 来 。 社 交 关 系 图 视 可 被 为 以 人 为 市 

点 ， 以 他 们 之 间 的 关系 为 边 的 图 。 




















5.4.2 ”图 和 MapReduce 


图 与 其 他 MapReduce 问 题 的 主要 区 别 在 于 ， 图 处 理 是 有 状态 的 ， 这 可 以 
从 而 点 间 的 路 径 关 系 和 图 算法 处 理 的 大 量 节 点 间 的 路 径 关 系 看 出 来 。 图 
人 
改 全 局 状态 。 


尤其 是 ， 大 多 数 著名 的 算法 通常 以 增 量 方式 或 可 重 入 方式 执行 ， 它 们 用 
不 同 的 数据 结构 表示 已 处 理 节 点 和 待 处 理 节 点 ， 然 后 对 未 处 理 市 点 进 行 
运算 并 将 该 节点 加 入 到 已 处 理 节点 集合 中 。 








但 是 ， 从 概念 上 讲 ，MapReduce 作 业 是 无 状态 的 。 它 基于 分 而 治之 的 方 
法 ， 每 台 Hadoop 主 机 处 理 全 部 数据 的 一 小 部 分 ， 并 输出 作业 最 终结 果 的 
一 部 分 ， 而 整个 作业 的 最 终 输出 可 以 视 为 这 些 子 任务 输出 的 聚合 。 因 
此 ， 使 用 Hadoop 实 现 图 算法 时 ， 我 们 需要 把 原本 有 状态 的 单线 程 算法 用 
无 状态 的 、 并 行 的 分 布 式 框架 来 描述 。 这 束 是 最 大 的 挑战 。 


大 部 分 著名 的 图 算法 为 了 找 出 节点 间 符 合 需 求 的 路 由 (通常 以 某 种 成 本 
为 衡量 标准 ) ， 通 党 使 用 图 搜索 或 图 遍历 的 办 法 。 最 基础 的 图 授 历 算法 
是 DFS (depth-first search， 深 度 搜索 算法 ) 和 BFS (breadth-first 
search， 广 度 搜 索 算 法 ) 。 两 者 区 别 在 于 ， 某 一 节点 及 其 邻居 节点 被 处 
理 的 先后 顺序 不 同 。 


接 下 来 ， 我 们 会 看 到 一 种 特殊 的 志 历 算法 ， 它 为 图 中 的 给 定 起 始 市 点 计 
算 图 中 其 余 所 有 节操 与 该 证 反 的 距离 。 


提示 : 可 以 看 出 ， 图 论 和 图 算法 是 一 个 巨大 的 研究 领域 ， 本 书 对 其 
介绍 非常 有 限 。 如 果 读 者 想 了 解 更 多 内 容 ， 可 以 从 Wikipedia 中 关于 图 
的 条 目 开 始 ， 参 见 
http://en.wikipedia.org/wiki/Graph_(abstract_data_type) 。 


5.4.3 图 的 表示 方法 


我 们 面临 的 第 一 个 问题 就 是 ， 如 何 表示 图 才能 使 用 MapReduce 对 其 进行 
高 效 处 理 。 有 几 种 图 的 表示 方法 为 大 家 所 熟知 ， 例 如 基于 指针 的 表示 

法 ， 邻 接 矩 阵 表 示 法 和 邻接 表 表 示 法 。 在 大 多 数 实 现 中 ， 这 些 表 示 法 通 
党 假设 整个 图 可 以 存储 在 单个 进程 空间 。 我 们 需要 对 这 些 表示 法 进行 修 
改 ， 人 允许 独立 的 map 和 reduce 任 务 对 个 别 节点 进行 处 理 。 


在 后 面 的 例子 中 ， 我 们 以 下 图 为 例 进行 介绍 。 该 图 还 包含 一 些 稍 后 会 讲 
到 的 额外 信息 。 


























这 个 图 很 简单 ， 只 有 7 个 节点 ， 其 中 只 有 一 条 单 回 边 ， 其 余 都 是 双 同 
边 。 我 们 使 用 了 标准 图 算法 使 用 的 着 色 方 法 ， 其 中 : 


。 白色 表示 未 处 理 市 反 ; 

。 灰色 表示 正在 处 理 的 节点 ; 

。 黑色 表示 已 处 理 节 点 。 
ee 


5.5 ”实践 环节 : 图 的 表示 
首先 定义 一 种 图 的 文本 表示 法 ， 后 面 的 例子 中 会 用 到 该 方法 。 
新 建 graph.txt 文件 ， 其 内 容 如 下 : 





原理 分 析 


我 们 定义 了 表示 图 的 文件 结构 ， 在 某 种 程度 上 ， 它 借鉴 了 图 的 邻接 表 表 
示 法 。 假 设 每 个 节点 有 1 个 唯一 的 ID， 该 文件 结构 包括 4 个 字段 ， 具 体内 
容 如 下 : 

。 节点 ID 
以 逗号 分 隔 的 邻居 列表 
与 起 始点 的 距离 
。 节点 状态 


最 初 ， 只 有 起 始 节点 的 第 3 个 和 第 4 个 字段 有 值 : 它 与 自 映 的 距离 为 0， 
状态 为 “<C”。 具 体 原 因 会 在 后 续 内 容 进 行 解释 。 


这 个 图 是 一 个 有 向 图 ， 也 残 是 说 ， 节 点 1 指 癌 节点 2 的 路 径 与 季 反 2 指向 
节点 1 的 路 径 是 两 条 不 同 的 路 径 。 从 图 示 中 可 以 看 到 ， 除 一 条 边 外 ， 其 
余 边 的 两 个 问 点 都 有 和 区 头 。 














由 于 该 算法 及 相应 的 MapReduce 作 业 相 当 复 杂 ， 我 们 将 先 解释 算法 ， 然 
后 展示 代码 ， 最 后 在 算法 的 使 用 过 程 中 说 明 其 原理 。 


基于 上 述 表 示 方 法 ， 我 们 定义 一 个 可 多 次 执行 的 MapReduce 人 作业， 以 获 
得 最 终 输 出 。 每 次 执行 作业 时 ， 使 用 上 次 作业 运行 的 输出 作为 本 次 运行 
的 输入 。 

基于 上 节 描 述 的 色 码 ， 我 们 定义 了 节点 的 三 种 状态 ， 如 下 所 述 。 


。 Pending: 节点 尚未 被 处 理 。 这 是 节点 的 默认 状态 ， 对 应 白色 节 
点 。 








。 Currently processing: 节点 正在 被 处 理 ， 对 应 灰色 节点 。 


。 Done: 已 算出 了 节点 与 起 始点 的 最 终 距 离 ， 对 应 黑色 节点 。 





1. mapper 
mapper 读 取 图 的 当前 状态 ， 并 按照 下 述 方法 处 理 节 点 。 
。 如 果 节 点 状态 为 Done， 原 封 不 动 将 其 输出 。 
。 如 果 节 点 状态 为 Currently processing， 把 它 的 状态 改 为 Done， 人 然后 


输出 。 它 的 邻居 市 皮 的 输出 与 该 节点 类 似 ， 只 是 在 其 距离 值 的 基础 
上 加 1， 而 邻居 节点 保持 不 变 。 例 如 ， 节 点 1 不 知道 节操 2 的 邻居 市 
后 。 


。 如 果 节 点 状态 为 Pending， 将 其 状态 改 为 Currently processing 并 输 
出 3 


2. reducer 





reducer 会 收 到 每 个 节点 的 一 条 或 多 条 记录 ， 它 会 把 这 些 记 录 值 合并 成 节 
点 的 最 终 输出 。 


reducer 的 主要 算法 如 下 : 
。 状态 为 Done 的 节点 的 输出 即 为 最 终 输出 ， 无 需 对 其 值 进 一 步 处 理 ; 


。 对 处 于 其 他 状态 的 节点 ， 提 取 其 邻 大 列表 ， 从 中 找 出 最 远 距离 和 节 
扩 状 态 作 为 最 终 输出 。 








3. 过 代 应 用 


如 采 我 们 应 用 一 次 该 算法 ， 贡 点 1 被 标记 为 Done， 它 的 直接 邻居 被 标记 
为 Currently processing， 其 余 节 点 都 被 标记 为 Panding。 依 次 应 用 该 算法 
会 使 所 有 节点 都 转 为 Done 状 态 。 因 为 每 个 节点 总 会 被 处 理 ， 它 的 邻居 都 
被 纳入 正在 处 理 队 列 。 稍 后 我 们 会 演示 该 过 程 。 








5.6 ”实践 环 市 : 创建 源 代 码 


1 因为 代码 较 长 ， 我 们 
几 个 部 分 。 显 然 ， 这 些 代 码 应 当 放 在 同一 个 源 文件 中 。 


1. 新 建 GraphPath.java 文 件 ， 添 加 下 列 引 用 声明 。 


java.io.* ， 


TT 


为 


区 
M 


、 


org.apache.hadoop.conf.Configuration; 
org.apache.hadoop.fs.Path,; 
org.apache.hadoop.io.Text; 
org.apache.hadoop.mapreduce. Job; 


org.apache.hadoop.mapreduce.*,; 
org.apache.hadoop.mapreduce.1ib,.input.*,; 
org.apache.hadoop.mapreduce.1ib,.output.*; 


Class GraphPath 





2. 创建 内 部 类 ， 以 面向 对 象 的 方法 表示 节点 。 


// Inner class to represent a node 
public static class Node 


{ 

// The integer node id 
private String id ; 

// The ids of all nodes this node has a path to 
private String neighbours ， 

// The distance of this node to the starting node 
private int distance ; 

// The current node state 

private String state ， 


// Parse the text file representation into a Node object 
Node( Text t) 


String[] parts = t.toString().split("\t") ，; 
this.id = parts[0] ，; 
this.neighbours = parts[1] ， 
if (parts.length 


3. 创建 作业 的 mapper。 该 mapper 新 建 一 个 Node 对 象 接收 输入 数据 ， 
并 根据 Node 对 象 的 状态 执行 相应 操作 。 








public static class GraphPathMapper 
extends Mapper 


{ 


public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException 


{ 


Node n = new Node(value) ，; 


if (n,.getState(),equals("C")) 
{ 
// Output the node with its state changed to Done 
context.write(new Text(n.getId()), new 
Text(n.getNeighbours()+"\t"+n.getDistance()+"\t"+"D")) ， 
for (String neighbour:n.getNeighbours().split(",")) 


{ 


// Output each neighbour as a Currently processing node 
// Increment the distance by 1; it is one link further away 


context.write(new Text(neighbour), newText("\t"+(n.getDistance()+1)+ 
} 
else 


{ 
// Output a pending node unchanged 
context.write(new Text(n.getId()), newText(n.getNeighbours()+"\t"+n.getD 





4. 创建 作业 的 reducer。 与 mapper 一 样 ， 该 reducer 读 取 节 点 记录 ， 并 根 
据 节 点 状态 输出 不 同 的 值 。 基 本 方法 是 ， 从 输入 数据 提取 状态 和 距 
离 字 段 的 最 大 值 ， 并 把 这 些 值 汇聚 成 最 终 输 出 。 





public static class GraphPathReducer 
extends Reducer 


{ 
public void reduce(Text key, Iterable values, 
Context context) 
throws IOException, InterruptedException 
{ 


// Set some default values for the final output 
String neighbours = null ， 

int distance = -1 ， 

String state = "P"” ， 


for(Text t: Values ) 


Node n = new Node(key，t) ， 
if (n.getState().equals("D")) 


// A done node should be the final output; ignore the remaining 
// values 
neighbours = n.getNeighbours()，; 

distance = n.getDistance() ; 

state = n.getstate().，; 

break ，; 


} 
// Select the list of neighbours when found 
if (n.getNeighbours() != null) 
neighbours = n.getNeighbours()，; 


// Select the largest distance 


if (n.getDistance() > distance) 
distance = n.getDistance(); 


// Select the highest remaining state 
if (n.getstate().equals("D") || 
(n.getSstate().equals("C") &&state.equals("P"))) 
state=n.getSstate().，; 


} 


// Output a 


} 


} 





new node representation from the collected parts 
context.write(key, newText(neighbours+"\t"+distance+"\t"+state)) ， 


5. 创建 作业 驱动 。 


public static void main(String[] args) throws Exception 


Configuration conf = new Configuration(); 


Job 


job., 
job., 
job., 


job., 
job., 
FileInputFormat.addInputPath(job, new Path(args[0])); 

FileOutputFormat.setOutputPath(job, new Path(args[1])); 


} 


原理 分 析 


job = new Job(conf, "graph path"); 
setJarByClass(GraphPath.class); 
SetMapperClass(GraphPathMapper .class); 
setReducerClass(GraphPathReducer .class); 
SetOutputKeyClass(Text.Cclass ) ， 
setoOutputValueClass(Text.class); 


System.exit(job.waitForCompletion(true) ? 0 : 1); 





该 作业 实现 了 之 前 描述 的 算法 ， 下 节 将 会 执行 该 算法 。 作 业 设 置 没什么 
特别 的 ， 除 了 算法 定义 ， 还 首次 使 用 内 部 类 来 表示 节点 。 
通常 ，mapper 或 reducer 的 输入 是 对 复杂 结构 或 对 象 的 展 平 化 表示 。 我 们 


可 以 使 用 那 种 表示 方法 ， 但 这 样 会 导致 mapper 和 reducer 中 充满 了 文本 和 
字符 串 操 作 代码 ， 不 利于 理解 算法 本 里 。 


使 用 Node 内 部 类 ， 实 现 了 从 局 平 的 文本 文件 问 封装 对 象 的 映射 ， 这 种 











用 对 象 表示 节点 的 方法 在 业务 领域 很 有 意义 。 从 语义 来 说 ， 不 同 对 象 之 
间 的 属性 对 比 要 比 字符 串 对 比 更 有 意义 ， 这 也 使 得 mapper 和 reducer 的 好 


辑 更 为 清楚 。 


5.7 ”实践 环节 : 第 一 次 运行 作业 
现在 ， 我 们 使 用 该 算法 对 图 进行 首次 运算 。 
1. 将 之 前 创建 的 graph.txt 文件 放 到 HDFS。 


$ hadoop fs -mkdirgraphin 
$ hadoop fs -put graph.txtgraphin/graph .txt 





2. 编译 源 文件 并 创建 JAR 文 件 。 


$ javac GraphPath.java 
$ jar -cvf graph.jar *.class 





3. 执行 MapReduce 作 业 。 


$ hadoop jar graph.jarGraphpathgraphingraphout1 





4. 检查 输出 文件 。 


$ hadoop fs -cat /home/user/hadoop/graphout1/part-re6660 
12,3,46D 

21,41C 

31,5,61C 

41,21C 

53,6-1P 


63,5-1P 
76-1P 





原理 分 析 


将 数据 源 文件 放 到 HDFS 上 并 创建 了 作业 JAR 文 件 之 后 ， 我 们 在 Hadoop 
上 执行 作业 。 输 出 结果 显示 ， 该 图 发 生 了 一 些 变化 ， 具 体 如 下 : 


。 节点 1 被 标记 为 Done 状 态 。 显 然 ， 它 与 自身 的 距离 是 0; 


。 节点 2、3、4 作 为 节点 1 的 邻居 ， 被 标记 为 Currently processing 他 
点 


. 
JAYV9 








。 其 余 节点 都 被 标记 为 Pending。 
经 过 一 次 MapReduce 处 理 之 后 ， 该 图 状态 如 下 所 示 。 








运行 结果 和 算法 描述 相 吻 合 ， 一 切 都 在 预料 之 中 。 第 一 个 节点 已 处 理 完 
毕 ，mapper 提 取 的 邻居 节点 正在 处 理 中 ， 其 余 节点 还 没 开始 处 理 。 


5.8 实践 环节 : 第 二 次 运行 作业 


假如 我 们 把 上 步 的 输出 结果 作为 下 次 作业 运行 的 输入 ， 我 们 认为 节 扣 
2、3、4 将 处 于 Done (已 处 理 ) 状态 ， 它 们 的 邻居 节点 将 处 于 Currently 
(正在 处 理 ) 状态 。 执行 下 列 步 对 ， 看 看 我 们 的 猜想 是 合 

人 确 。 


1. 执行 下 列 命令 ， 运 行 MapReduce 人 作业。 


$ hadoop jar graph.JjarGraphPathgraphout1graphout2 





2. 检查 输出 文件 。 


$ hadoop fs -cat /home/user/hadoop/graphout2/part-re66660 





原理 分 析 


果然 不 出 所 料 ， 经 过 第 二 次 处 理 后 ， 节 点 1~4 处 于 已 处 理 状态 ， 节 点 5 和 
市 反 6 处 于 正在 处 理 状态 ， 市 点 7 处 于 未 处 理 状态 ， 如 下 图 所 示 。 











假如 再 次 运行 作业 ， 我 们 认为 ， 节 点 5 和 节点 6 的 状态 会 变 为 Done， 其 余 
未 处 理 的 邻居 节点 状态 会 变 为 Currently processing。 





5.9 ”实践 环节 : 第 三 次 运行 作业 
第 三 次 执行 算法 ， 验 证 我 们 的 预测 是 否 正确 。 


1. 执行 MapReduce 作 业 。 


$ hadoop jar graph.JjarGraphPathgraphout2graphout3 





2. 检查 输出 文件 。 


$ hadoop fs -cat /user/hadoop/graphout3/part-Fr-96666 





原理 分 析 


现在 ， 我 们 看 到 节点 1~6 处 于 Done 状 态 。 但 节点 7 仍 处 于 pending (未 处 
理 ) 状态 ， 且 没有 节点 正在 被 处 理 ， 如 下 图 所 示 。 








之 所 以 出 现 这 种 情况 ， 是 由 于 虽然 存在 一 条 以 节点 7 为 起 点 、 节 点 6 为 终 
点 的 边 ， 却 不 存在 反 向 边 ， 造 成 节点 6 无 法 访问 节点 7。 因 此 ， 从 节点 1 
出 发 无 法 到 达 节 点 7。 如 果 最 后 运行 一 次 算法 ， 我 们 认为 该 图 保持 不 
变 。 


5.10 ”实践 环节 : 第 四 次 也 是 最 后 一 次 运行 作业 
让 我 们 再 运行 一 次 作业 ， 验 证 作业 输出 是 否 已 达到 最 终 稳定 状态 。 





1. 执行 MapReduce 作 业 。 


$ hadoop jar graph.JjarGraphPathgraphout3graphout4 





2. 检查 输出 文件 。 


$ hadoop fs -cat /user/hadoop/graphout4/part-Fr-96666 





原理 分 析 


输出 的 结果 与 预期 一 致 。 因 为 从 节点 1 或 其 邻居 节点 出 发 无 法 到 达 节 点 
7， 所 以 节点 7 的 状态 仍 为 Panding (未 处 理 ) ， 且 永远 无 法 对 其 进行 处 
理 。 因 此 ， 该 图 已 达到 稳定 状态 ， 其 输出 保持 不 变 ， 如 下 图 所 示 。 








我 们 的 算法 中 未 加 入 对 其 是 否 满足 结束 条 件 的 判断 。 如 果 经 过 某 次 运算 
后 ， 该 图 不 再 产生 新 的 Done 或 Currently processing 节 点 ， 即 完成 了 整个 


本 章 ， 我 们 使 用 手工 方法 判断 算法 是 人 否 满 足 结束 条 件 ， 也 就 是 说 ， 我 们 
通过 实验 得 知 该 图 已 达到 最 终 的 稳定 状态 。 然 而 ， 可 以 通过 编程 实现 这 
个 功能 。 在 下 一 章 中 ， 我 们 会 学 习 自 定义 的 作业 计数 器 ， 使 用 它 即 可 实 
现 该 功能 。 例 如 ， 每 当 新 建 一 个 Done 或 Currently processing 节 点 的 时 
候 ， 计 数 器 的 值 加 1。 只 有 在 某 次 作业 完成 运行 后 ， 计 数 器 的 值 大 于 0 
时 ， 才 会 再 次 执行 作业 。 否 则 ， 即 可 认为 该 图 达到 了 最 终 稳定 状态 。 


5.10.1 运行 多 个 作业 


在 上 述 算法 中 ， 我 们 首次 明确 地 把 一 个 MapReduce 作 业 的 输出 当做 另 一 
个 作业 的 输入 。 在 大 多 数 情况 下 ， 这 些 接续 执行 的 作业 之 间 是 有 所 区 别 
的 。 然 而 ， 正 如 我 们 所 看 到 的 ， 反 复 执 行 同一 个 算法 直到 其 输出 达到 稳 
定 状 态 是 很 有 意义 的 。 








5.10.2 关于 图 的 终极 思考 


对 熟悉 图 算法 的 人 来 说 ， 上 述 处 理 方 法 显得 非常 陌生 。 其 实 ， 这 是 使 用 
一 系列 无 状态 的 MapReduce 作 业 实 现 一 个 有 状态 的 、 递 归 的 、 可 重 入 的 
图 算法 的 必然 结果 。 我 们 要 强调 的 并 非 用 到 的 特定 算法 ， 而 是 如 何 采 用 
纯 文 本 结构 和 一 系列 MapReduce 作 业 实 现 图 过 历 的 经 验 。 你 可 能 会 遇 到 
一 些 乍 看 上 去 似乎 无 法 使 用 MapReduce 范 式 解决 的 问题 。 此 时 ， 认 真 思 
考 本 章 用 到 的 一 些 技 术 ， 同 时 请 记 住 ， 许 多 算法 都 可 以 使 用 MapReduce 
建 模 。 它 们 可 能 看 似 与 传统 方法 有 较 大 的 差别 ， 但 我 们 的 目标 是 输出 正 
确 结 果 ， 而 非 实现 一 种 已 知 算法 。 











5.11 使 用 语言 无 天 的 数据 结构 


开发 者 往往 会 批评 Hadoop 的 一 切 设 计 都 以 Java 为 中 心 ，Hadoop 团 队 一 直 
在 努力 解决 这 个 问题 。 这 种 批评 似乎 有 点 奇怪 ， 难 到 一 个 用 Java 语 言 实 
现 的 项 目 不 该 以 Java 为 中 心 吗 ? 但 从 用 户 的 角度 考虑 ， 他 们 希望 不 依赖 
于 特定 语言 实现 对 Hadoop 的 操作 。 





在 第 4 章 ， 我 们 已 演示 了 使 用 Hadoop Streaming 脚 本 实现 map 和 reduce 任 
务 的 方法 。 同 时 ，Pipes 也 提供 了 类 似 的 使 用 C++ 实现 map 和 reduce 任 务 
的 技术 。 然 而 ， 有 一 个 地 方 仍 只 能 使 用 Java， 它 就 是 Hadoop MapReduce 
文 持 的 输入 格式 。 效 率 最 高 的 输入 格式 是 SequenceFile, 它 是 一 种 文 持 压 
绽 和 分 块 的 二 进 制 文件 。 但 是 ，SequenceFile 只 提供 了 Java API， 用 户 无 
法 使 用 其 他 语言 读 写 SequenceFile。 


我 们 可 以 使 用 外 部 进程 创建 用 于 MapReduce 作 业 的 数据 ， 最 佳 方式 是 用 
文本 格式 输出 生成 的 数据 ， 或 者 对 生成 的 数据 进行 预 处 理 ， 将 其 转换 为 
SequenceFile。 我 们 还 要 想 办 法 简化 复杂 数据 类 型 的 表示 : 要 么 将 它们 
扰 换 入 文本 格式 ， 要 么 编写 两 各 二进制 格式 的 转换 器 。 这 些 方法 都 不 是 
很 理想 。 


5.11.1 候选 技术 


邓 运 的 是 ， 近 年 来 出 现 了 一 些 技术 可 以 解决 这 种 跨 语 言 的 数据 表示 问 
题 。 这 些 技术 包括 Protocol Buffers (Google 创 建 的 项 目 ， 其 网 址 

为 http://code.google.com/p/protobuf )、Thrift (该 项 目 最 初 由 Facebook 创 
建 ， 目 前 是 一 个 Apache 子 项 目 ， 其 网 址 为 http://thrift.apache.org ) 以 及 
Avro (该 项 目 由 Hadoop 的 创建 者 Doug Cutting 所 创建 ) 。 由 于 Avro 的 创 
建 者 与 Hadoop 相 同 ， 我 们 将 使 用 它 来 研究 这 个 问题 。 本 书 中 不 会 讲 到 
Thrift 和 Protocol Buffers， 但 它们 都 是 成 熟 的 拉 术 。 如 果 你 对 数据 序列 化 
的 问题 感 兴趣 ， 请 访问 它们 的 主页 获取 更 多 信息 。 


5.11.2 Avro 简介 
Avro 是 一 种 数据 存储 框架 ， 可 使 用 多 种 编程 语言 对 其 进行 操作 ， 其 主页 


地 址 为 http://avro.apache.org 。Avro 创 建 了 一 种 可 压缩 和 可 切 分 的 二 进 制 
结构 化 数据 格式 ， 换 句 话 说 ， 它 可 以 有 效 地 用 于 同 MapReduce 作 业 输 入 


数据 。 


Avro 文 持 层次 化 的 数据 结构 ， 因 此 ， 我 们 可 以 在 一 个 Avro 记 录 中 髓 套数 
组 、 枚 举 类 型 甚至 是 一 个 子 记录 。 我 们 可 以 用 任何 程序 语言 创建 此 类 数 
据 文件 ， 用 Hadoop 对 其 进行 处 理 ， 并 使 用 第 三 方 语言 读 取 结 果 。 


下 一 节 ， 我 们 将 讨论 Avro 的 语言 独立 性 ， 而 其 表达 复杂 结构 类 型 的 能 
也 很 重要 。 即 便 只 使 用 Java 语 言 ， 我 们 可 以 把 用 Avro 表 示 的 复杂 数据 结 
构 作 为 mapper 和 reducer 的 输入 输出 类 型 。 即 使 是 像 图 节点 这 么 复杂 的 数 
据 结 构 都 没 问 题 。 











5.12 ”实践 环节 : 获取 并 安装 Avro 
下 面 ， 我 们 将 下 载 Avro 并 将 其 安装 在 自己 的 主机 上 。 














1. 从 http://avro.apache.org/releases.html 下 载 Avro 的 最 新 稳定 版 本 。 
2， 从 http:/paranamer.codehaus.org 下 载 最 新 版 的 ParaNamer 库 。 
3. 将 下 述 3 个 JAR 类 添加 到 build classpath， 以 供 Java 编 译 器 所 用 。 
$ export CLASSPATH=avro-1.7.2.jar:${CLASSPATH} 
$ export CLASSPATH=avro-mapred-1.7.2.jar:${CLASSPATH} 
$ export CLASSPATH=paranamer-2.5.jar:${CLASSPATH} 
4. 将 Hadoop 安 闭路 径 下 的 JAR 文 件 添 加 到 puild classpath。 
Export CLASSPATH=${HADOOP HOME}/1ib/Jackson-core-asl-1.8.jar:${CLASSPA 
Export CLASSPATH=${HADOOP_ HOME}/1ib/Jackson-mapred-asl-1.8.jar:${CLASS 
Export CLASSPATH=${HADOOP_ HOME}/1ib/commons-cli-1.2.jar:${CLASSPATH} 
5. 将 新 JAR 文 件 添 加 到 Hadoop lib 目录 。 
$cpavro-1.7.2.jar ${HADOOP_ HOME}/1ib 
$cpavro-1.7.2.jar ${HADOOP_ HOME}/1ib 
$cpavro-mapred-1.7.2.jar ${HADOOP_ HOME}/1ib 
原理 分 析 





Avro 的 设置 稍微 有 点 复杂 ， 它 的 创建 时 间 比 我 们 将 用 到 的 其 他 Apache 工 
具 晚 得 多 ， 因 此 ， 它 的 设置 不 光 是 下 载 一 个 文件 那么 简单 。 


我 们 从 Apache 网 站 下 载 了 avro-1.7.2.jar 和 avro-mapred-1.7.2.jar 文 件 。 
为 这 两 个 文件 依赖 于 ParaNamer， 所 以 我 们 又 从 
http://paranamer.codehaus.org 下 载 了 paranamer-2.5.Jjar 。 


提示 : ”作者 在 创作 本 书 时 ，ParaNamer 主 页 上 的 下 载 链接 出 现 了 问 
题 。 作 为 蔡 代 方案 ， 试 一 下 下 面 这 个 下 载 链接 : 
http://search.maven.org/remotecontent? 
filepath=com/thoughtworks/paranamer/paranamer/2.5/paranamer-2.5.jar 


在 下 载 到 上 述 JAR 文 件 之 后 ， 需 要 把 它们 添加 a 到 Java 编 译 器 要 用 到 的 
classpath 中 。 与 此 同时 ， 我 们 还 需要 把 编译 和 运行 Avro 代 码 要 用 到 的 几 
个 包 添 加 到 Hadoop 的 build classpath。 


最 后 ， 我 们 把 这 三 个 新 JAR 文 件 找 贝 到 集群 中 每 台 主 机 的 Hadoop 1ib 目 
录 下 。 这 样 ， 在 运行 map 和 reduce 任 务 的 时 候 束 可 以 使 用 这 些 类 。 我 们 
也 可 以 使 用 其 他 方法 实现 上 述 JAR 文 件 的 分 发 ， 但 这 是 最 简单 的 方式 。 


Avro 及 其 模式 


与 Thrift 和 Protocol Buffers 之 类 的 工具 相 比 ，Avro 的 一 个 优势 在 于 它 对 摘 
述 数据 文件 的 模式 的 处 理 方法 。 其 他 工具 都 要 求 模 式 以 独立 资源 的 形式 
存在 ， 而 Avro 数据 文件 将 模式 编码 到 该 文件 头 部 ， 这 样 ， 代 码 无 需 独 立 
的 模式 文件 即 可 解析 数据 文件 。 


Avro 文 持 但 不 需要 代码 生成 功能 ， 该 功能 为 特定 的 数据 模式 生成 定制 代 
码 。 在 菏 些 情况 下 ， 这 是 一 种 重要 的 优化 措施 ， 却 不 是 必须 的 。 


因此 ， 我 们 可 以 写 出 一 系列 从 来 没有 真正 用 到 数据 文件 模式 的 Avro 例 
程 ， 但 我 们 只 会 在 部 分 数据 处 理 任务 中 那样 做 。 下 面 的 例子 中 ， 我 们 定 
义 一 个 表示 删 减 过 的 UFO 目 击 事件 记录 的 数据 模式 。 

















5.13 ”实践 环节 : 定义 模式 
下 面 ， 我 们 将 在 单独 的 Avro 模式 文件 中 创建 简化 的 UFEO 模 式 。 
将 以 下 内 容 保存 为 ufo.avsc 文件 。 


{ "type": "record", 
"name": "UFO Sighting Record", 
"fields" : |[ 
{"name": "sighting date", "type": "string"}, 
{"name": "city", "type": "string"}, 
{"name": "shape", "type": ["null", "string"]}, 


{"name": "duration", "type": "float"} 


] 
} 





原理 分 析 


可 以 看 出 ，Avro 在 其 模式 中 使 用 了 JSON 格 式 ，Avro 模 式 文件 名 通常 
以 .avsc 为 后 级 。 刚 才 ， 我 们 创建 了 一 个 模式 ， 其 格式 包括 4 个 字段 ， 
各 字段 的 含义 如 下 所 示 : 


。 Sighting_date 字段 类 型 为 string。 它 以 yyyy-mm-dd 这 样 的 形式 保存 
日 期 ; 


。 City 字段 类 型 为 string。 它 表示 的 是 UFO 目 击 事件 友 生 的 城市 名 ; 


。 Shape 字段 类 型 为 string。 这 是 一 个 可 选 字 段 ， 表 示 的 是 UFO 的 形 





状 ; 
。 a 字段 以 小 数 形式 表示 目击 事件 的 持续 时 间 ， 该 字段 以 分 钟 
> 让 3 


我 们 将 按照 已 定义 的 模式 ， 创 建 一 些 样本 数据 。 


5.14 ”实践 环节 : 使 用 Ruby 创 建 Avro 源 数据 
下 面 ， 我 们 使 用 Ruby 创 建 样 本 数据 ， 以 说 明 Avro 的 跨 语 言 特性 。 


1. 安装 rubygems 包 。 


$ sudo apt-get install rubygems 





2. 安装 Avro gem。 


$ gem install avro 





3. 将 下 列 代 码 保存 为 generate.rb 文件 。 


require "Pubygems， 
require 'avro' 


file = File.open('sightings.avro', 'wb') 
schema = Avro::Schema.parse( 
File.open("ufo.avsc", "rb").read) 


writer = Avro::I10::DatumWriter.new(schema) 

dw = Avro::DataFile: :Writer.new(file, writer, 
dw<< {"sighting date" => "20612-61-12", "city" 
dw<< {"sighting date" ”2611-66-13"”， "city" 
dw<< {"sighting date" "1999-12-31", "city" 
dw<< {"sighting date" ”2661-68-23"”， "City"” 
dw<< { "sighting date" "1975-11-69", "city" 
dw<< {"sighting date" ”2663-02-27"”， "City"” 
dw<< {"sighting date" ”2667-64-12"”， "city" 
dw<< {"sighting date" "260609-16-16"，"city" 
dw<< {"sighting date" ”2612-04-16"”， "City"” 
dw<< { "sighting date" "2666-66-15"”， "City"” 
dw.close 





schema) 

=> "Boston", "shape"=> 
"London", "shape"=> 
"New York", "shape” = 
"Las Vegas", "shape" 
"Miami", "duration"” = 
"Paris", "shape"=> "1 
"Dallas", "shape"=> " 
"Milan", "shape"=> "f 
"Amsterdam", "shape" 
"Minneapolis", "shap 


| | 


4. 运行 generate.rb 创建 数据 文件 。 


$ ruby generate.rb 


原理 分 析 


在 使 用 Ruby 之 前 ， 要 保证 已 在 Ubuntu 主机 上 安装 了 rubygems 包 。 随 
后 ， 我 们 为 Ruby 安 装 它 要 用 到 的 Avro gem， 该 文件 早已 存在 。 上 述 操作 
提供 了 使 用 Ruby 语 言 读 写 Avro 文件 需要 的 代码 库 。 


generate.rb 脚本 仅 负责 读 入 之 前 定义 的 模式 ， 并 生成 一 个 包含 10 条 
测试 记录 的 数据 文件 。 接 着 ,我 们 运行 该 脚本 生成 测试 数据 。 


本 节 内 容 不 会 讲解 Ruby 的 使 用 ， 因 此 读者 需要 自行 分 析 程 序 中 用 到 的 
Ruby API。 相 应 的 文档 参见 http://rubygems.org/gems/avro 。 





5.15 ”实践 环节 : 使 用 Java 语 言 编 程 操作 Avro 数据 


人 接 下 来 ， 编 写 Java 程 序 对 这 些 数据 进 
行 操作 。 


1. 把 下 列 代 码 保存 为 InputRead.java 文件 。 


import java.io.File; 
import java.io.IOException,; 


import org.apache.avro.file.DataFileReader; 

import org.apache.avro.generic.GenericData; 

import org.apache.avro. generic,.GenericDatumReader; 
import org.apache.avro.generic.GenericRecord; 
import org.apache.avro.io.DatumReader,; 


public class InputRead 


public static void main(String[] args) throws IOException 


{ 


String filename = args[0] ，; 


File file=new File(filename) ; 
DatumReader reader= new 
GenericDatumReader(); 
DataFileReaderdataFileReader=new 
DataFileReader (file,reader); 


while (dataFileReader.hasNext()) 


GenericRecord result=dataFileReader .next(); 

String output = String.format("%s %s %S %f", 
result.get("sighting_date"), result.get("city"), 
result.get("shape"), result.get("duration")) 


System.out.println(output) ; 
} 


} 





2. 编译 并 运行 InputRead.java。 


$ javacInputRead ,java 
$ java InputReadsightings.avro 


输出 结果 应 当 如 下 图 所 示 。 


"Daudop evmne avo 


Ele Edt View Terminal Help 
hadoop@vm15: ~/avro$ ] avac InputRead.Java 
hadoop@vm16:~/avros$ java InputRead sightings.avro 
2012-01-12 Boston diamond 3,500000 

2011-06-13 London light 13,000000 

1SSG- 12-31 New York light 0,250000 

20601- G68-23 Las Vegas cylinder 1,200000 
1975-11-09 Maml nuLL 5.000000 

ZC503- gz-z7 Paris light 9.500000 

2007- 64- 12 Dallas 中 amond 3,500000 

2608- 10-19 MLan formation 0,.000000 

2012-04- 10 Amstardam blur 6.000000 

2005- 065-15 MnneappLLs saucer 0,250000 
hadoop@vm16: ~/avro$ 





原理 分 析 


我 们 定义 了 Java 类 InputRead ， 它 通过 命令 行 参 数 接收 待 处 理 的 文件 
名 ， 并 把 该 文件 当做 Avro 数据 文件 进行 解析 。Avro 从 数据 文件 读 取 的 每 
个 元 素 被 称 为 datum， 每 个 datum 都 遵循 数据 模式 定义 的 数据 结构 。 


本 例 中 ， 我 们 没有 使 用 明确 的 模式 ， 而 是 把 每 个 datum 读 
入 GenericRecord 类 ， 并 使 用 字段 名 从 中 提取 各 个 字段 的 值 。 


Avro 中 的 GenericRecord 类 非常 灵活 ， 它 可 被 用 于 封装 任何 数据 结 
构 ， 比 如 示例 中 用 到 的 UFO-sighting 类 型 。Avro 也 支持 原生 类 型 ， 如 整 
型 、 浮 点 型 、 布 尔 型 ， 以 及 其 他 结构 类 型 ， 如 数组 和 枚 举 。 在 这 些 例子 
中 ， 我 们 将 记录 用 作 最 常用 的 结构 ， 但 这 只 是 为 了 方便 。 








在 MapReduce 中 使 用 Avro 


Avro 对 MapReduce 的 文 持 主要 体现 在 ，Avro 对 知 干 个 常见 类 进行 了 改 


写 ， 实 现 了 Avro 特有 变种 。 我 们 通常 希望 ，Hadoop 通 过 改写 
InputFormat 和 OutputFormat 类 实现 对 新 数据 文件 格式 的 支持。 我 们 
将 使 用 AvroJob 、AvroMapper 和 AvroReducer 代替 非 Avro 版 本 的 类 。 
AvrojJob 和 硕 望 使 用 Avro 数据 文件 作为 输入 和 输出 ， 所 以 我 们 使 用 输入 和 
输出 的 Avro 数据 模式 对 AvroJob 进 行 配 置 ， 而 不 再 指定 输入 和 输出 数据 
的 格式 类 型 。 


AvroMapper、AvroReducer 与 通用 mapper、reducer 的 主要 区 别 在 于 使 用 
的 数据 类 型 。 默 认 情 况 下 ，Avro 的 输入 输出 是 单一 的 ， 而 Mapper 和 
Reducer 类 要 求 使 用 键 值 对 作为 输入 输出 类 型 。 为 此 ，Avro 引 入 了 
Pair 类 ， 该 类 通常 用 于 输出 处 理 过 程 中 产生 的 临时 键 值 数 据 。 


Avro 还 支持 AvroKey 和 Avrovalue ， 它 们 可 以 封装 其 他 数据 类 型 ， 但 是 
下 面 示例 中 没有 用 到 这 两 个 类 型 。 





5.16 ”实践 环节 : 在 MapReduce 中 统计 UFO 形 状 


本 节 ， 我 们 将 编写 一 个 mapper， 它 以 前 面 定 义 好 的 UFO 目 击 事件 记录 为 
输入 。 它 会 输出 相应 的 UFO 形 状 和 值 1 ，reducer 会 利用 mapper 的 输出 生 
成 一 个 新 的 Avro 数据 类 型 ， 它 包括 了 每 个 UFO 形 状 出 现 的 次 数 。 执 行 下 
列 步 又 完成 该 任务 。 


1. 把 sightings .avro 文件 找 贝 到 HDFS 。 


$ hadoopfs -mkdiravroin 
2. 把 下 列 代 码 保存 为 AvroMR .java 文件 。 


import java.io.IOException,; 

import org.apache.avro.schema,; 

import org.apache.avro.generic.*,; 
import org.apache.avro.Sschema.Type; 
import org.apache.avro.mapred.*,; 

import org.apache.avro.reflect.ReflectData; 
import org.apache.avro.util.Utf8,; 
import org.apache.hadoop.conf.*,; 

import org.apache.hadoop.fs.Path,; 
import org.apache.hadoop.mapred.*; 
import org.apache.hadoop.mapreduce.Job; 
import org.apache.hadoop.io.* ， 

import org.apache.hadoop.util,.*; 














// 定 义 输出 记录 的 数据 


class UFORecord 
et 
} 
public String shape ，; 
public long count ; 


} 


public class AvroMR extends Configured implements Tool 


{ 

// 创建 map 输 出 的 模式 

public static final Schema PAIR SCHEMA =Pair,getPairSchema(Schema.create(Sch 
// 创建 reduce 输 出 的 模式 

public final static Schema OUTPUT_SCHEMA = ReflectData.get().getschema(UFORecord 








@Override 
public int run(String[] args) throws Exception 


{ 


JobConfconf = new JobConf(getconf(), getClass())， 
conf.setJobName("UFO count"); 





String[] otherArgs = new GenericOptionsParser(conf, args). 
getRemainingArgs(); 

If (otherArgs.length != 2) 

4‘ 
System.err.println("Usage: avro UFO counter "); 
System.exit(2); 


} 


FileInputFormat.addInputPath(conf, new Path(otherArgs[0])); 

Path outputPath = new Path(otherArgs[1]); 
FileOutputFormat.setOutputPath(conf, outputPath); 
outputPath.getFileSystem(conf).delete(outputPath); 

Schema input_schema =Schema.parse(getClass().getResourceAsStream("ufo.avsc") 
AvroJob,.setInputSchema(conf, input_schema); 

AvroJob ,setMapoutputSchema(conf,Pair.getPairSchema(Schema,create(Schema,.Type.STR 


AvroJob ,setoutputSchema(conf，OUTPUT_SCHEMA ) ， 

AvroJob ,setMapperClass(conf，AvroRecordMapper .Class ) ， 
AvroJob ,setReducerClass(conf，AvroRecordReducer .class ) 
conf .SetInputFormat(AvroInputFormat .class) ， 
obClient.runJob(conf ) ， 


return 0 ; 


} 


public static class AvroRecordMapper extends 
AvroMapper> 
{ 
@Override 
public void map(GenericRecord in, AvroCollector<Pair<Utf8, 
Long>> collector, Reporter reporter) throws IOException 


{ 
Pair p = new Pair(PAIR SCHEMA) ; 
Utf8 shape = (Utf8)in.get("shape") ，; 
If (shape != null) 


p.set(shape, 1L); 
collector .collect(p); 


} 
} 
public static class AvroRecordReducer extends 
AvroReducer 


{ 


public void reduce(Utf8 key, Iterable values, 
AvroCollector collector, 
Reporter reporter) throws IOException 
{ 


long Sum = 0; 
for (Long val : values) 


sum += val; 


} 


GenericRecord value = new 
GenericData.Record(OUTPUT_SCHEMA); 


value.put("shape", key); 
value.put("count", sum); 


collector.collect(value); 
} 
public static void main(String[] args) throws Exception 


int res = ToolRunner.run(new Configuration(), new AvroMR(), args); 
System.exit(res); 


} 





3. 编译 并 运行 作业 。 


$ javacAvroMR. java 
$ jar -cvfavroufo.jar *.class ufo.avsc 
$ hadoop jar ~/classes/avroufo .jarAvroMRavroinavroout 





4. 检查 输出 路 径 。 


$ hadoopfs -lsavroout 

Found 3 items 

-rw-r--r-- 1 .. /user/hadoop/avroout/_SUCCESS 

drwxr -xr -x - hadoopsupergroup 0 .. /user/hadoop/avroout/_logs 
-rw-r--r-- E /user/hadoop/avroout/part-00000.avro 





5. 把 输出 文件 拷贝 到 本 地 文件 系统 。 


$ hadoopfs -get /user/hadoop/avroout/part-00000.avroresult .avro 





原理 分 析 


我 们 创建 了 Job 类 并 检查 其 各 个 组 件 。 实 际 上 ，mapper 和 reducer 类 
的 逻辑 很 简单 : mapper 类 只 是 从 shape 字 有 段 提 取 相 应 值 并 输出 ， 同 时 输 
出 值 1; 然后 ，reducer 统 计 每 个 UFO 形 状 出 现 的 总 次 数 。 我 们 关注 的 
是 ， 为 Mapper 和 Reducer 定义 的 输入 输出 类 型 ， 以 及 作业 的 配置 方 


hs 


Mapper 类 的 输入 类 型 为 GenericRecord ， 输 出 类 型 为 Pair 。 相 应 
地 ，Reducer 类 的 输入 类 型 为 Pair ， 输 出 类 型 为 GenericRecord。 


传 给 Mapper 类 的 GenericRecord 类 对 datum 〈 输 入 文件 中 的 UFO 有 目击 
事件 记录 ) 进行 了 封装 。 这 就 是 Mapper 类 能 够 通过 Shape 字段 名 获取 
对 应 值 的 原因 。 


回忆 一 下 ， 创 建 GenericRecords 时 ， 可 以 明确 地 或 隐 含 地 指定 数据 模 
式 。 这 两 种 情况 下 ， 都 可 以 将 数据 模式 编码 在 数据 文件 中 。 对 于 
Reducer 类 用 到 的 GenericRecords 输出 ， 我 们 通过 其 他 方式 为 其 创建 
了 二 个 模式 。 


在 上 述 代码 中 ， 我 们 创建 了 UFORecord 类 ， 并 在 其 运行 时 使 用 Avro 反 
射 动 态 生成 模式 。 之 后 ， 我 们 可 以 使 用 该 模式 创建 GenericRecord 
类 ， 该 类 专门 用 于 封装 那 种 特定 的 数据 类 型 。 


我 们 使 用 Avro Pair 类 型 在 Mapper 和 Reducer 之 间 存 储 键 值 对 。 

样 ，Mapper 和 Reducer 类 实现 的 逻辑 与 第 2 章 中 a 的 逻 
辑 完全 相同 : Mapper 类 输出 每 个 形状 的 出 现 次 数 ，Reducer 类 累加 每 
个 形状 的 出 现 次 数 作为 最 终 输出 。 


除 Mapper 和 Reducer 类 的 输入 输出 外 ， 还 要 对 处 理 Avro 数 据 的 作业 进 
行 一 些 独 特 的 配置 。 














Schema input schema = Schema.parse(getClass(). 
getResourceAsStream("ufo.avsc")) ; 

AvroJob.setInputSchema(conf, input schema); 
AvrojJob.setMapOutputSchema(conf， Pair.getPairSchema(Schema . 
create(Schema.Type.STRING), Schema.create(Schema.Type.LONG))); 


AvroJob.setOutputSchema(conf, OUTPUT_ SCHEMA); 
AvroJob.setMapperClass(conf, AvroRecordMapper .class); 
AvroJob.setReducerClass(conf, AvroRecordReducer.class); 








这 些 配置 元 素 说 明了 模式 对 Avro 的 重要 性 。 尽 管 不 定义 模式 也 可 完成 数 
据 处 理 任务 ， 我 们 必须 设置 输入 输出 数据 的 模式 类 型 。Avro 会 验证 输入 





输出 数据 是 否 与 指定 的 模式 相 吻 合 ， 这 在 某 种 程度 上 也 保证 了 数据 类 型 
安全 。 对 其 他 配置 元 素 ， 比 如 Mapper 和 Reducer 的 配置 选项 ， 我 们 通 
过 AvroJob 类 而 非 通用 Job 类 进行 设置 。 设 置 完成 后 ，MapReduce 框 架 会 
根据 这 些 设 置 执行 作业 。 


本 例 也 是 我 们 首次 明确 实现 Tool 接口 。 在 运行 Hadoop 命 令 行 程序 时 ， 
有 一 系列 参数 (比如 -D ) 对 多 个 子 命令 是 通用 的 。 假 如 作业 类 像 上 节 
提 到 的 那样 实现 了 Tool 接口 ， 它 会 自动 访问 通过 命令 行 传 入 的 标准 参 
数 。 这 个 方法 可 有 效 避 免 不 少 代码 重复 。 











5.17 实践 环节 : 使 用 Ruby 检 查 输 出 数据 
既然 作业 已 生成 了 输出 数据 ， 我 们 将 使 用 Ruby 检 查 这 些 输出 数据 。 
1. 将 下 列 代码 保存 为 read .rb 文件 。 


require 'rubygems' 
require 'avro' 





file = File.open('res.avro', 'rb') 
reader = Avro::IO::DatumReader .new() 
dr = Avro::DataFile: :Reader.new(file, reader) 


dr.each {|record| 
print record["shape"]," ",record["count"],"\n" 


} 


dr.close 





2. 检查 作业 输出 的 结果 文件 。 


$ ruby read.rb 
blur 1 
cylinder 1 
diamond 2 
formation 1 


light 3 
saucer 1 





原理 分 析 


和 以 前 一 样 ， 我 们 不 会 分 析 Ruby 的 Avro API。 示 例 程序 创建 了 一 个 打开 
Avro 数据 文件 的 Ruby 脚 本 ， 循 环 读 取 每 个 datum 并 基于 明确 的 字段 名 输 
出 结果 。 请 注意 ， 该 脚本 没有 访问 数据 文件 的 模式 ， 数 据 文件 头 部 提供 








的 信息 足以 满足 Ruby 脚 本 获取 各 个 字段 的 需要 。 


5.18 ”实践 环节 : 使 用 Java 检 查 输 出 数据 


edn 多 种 语言 访问 Avro 数据 ， 我 们 将 使 用 Java 语 言 显示 作业 
入 出 。 


1. 将 下 列 代 码 保存 为 OutputRead .java 文件 。 


import java.io.File; 

import java.io.IOException,; 

import org.apache.avro.file.DataFileReader,; 

import org.apache.avro.generic.GenericData; 

import org.apache.avro. generic,.GenericDatumReader; 
import org.apache.avro.generic.GenericRecord; 
import org.apache.avro.io.DatumReader,; 





public class OutputRead 
{ 


public static void main(String[] args) throws IOException 


{ 


String filename = args[0] ，; 


File file=new File(filename) ; 
DatumReader reader= new 
GenericDatumReader(); 
DataFileReaderdataFileReader=new 
DataFileReader (file,reader); 


while (dataFileReader.hasNext()) 

{ 
GenericRecord result=dataFileReader .next(); 

String output = String.format("%s %d", 
result.get("shape"), result.get("count")).，; 
System.out.println(output) ， 


} 








2. 编译 并 运行 程序 。 


$ javacOutputResult ,java 

$ java OutputResultresult.avro 
blur 1 

cylinder 1 


diamond 2 
formation 1 
light 3 
saucer 1 





原理 分 析 





我 们 加 入 该 示例 的 目的 是 说 明 可 使 用 多 种 语言 读 取 Avro 数据 。 上 述 代码 
与 之 前 讲 到 的 InputRead 类 非常 相似 ， 唯 一 的 区 别 在 于 ， 字 上 段 名 用 于 展 
示 从 数据 文件 读 取 的 每 个 datum。 


一 展映 手 : Avro 对 图 的 支持 


前 面 曾 提 到 过 ， 我 们 努力 简化 GraphPath 类 中 图 的 表示 方法 。 但 扁平 的 
3 图 对 象 之 间 存 在 映射 关系， 维护 它们 之 间 的 转换 需要 一 定 的 开 


由 于 Avro 文 持 复杂 类 型 的 舱 套 ， 它 天 生 束 支持 以 更 接近 运行 时 对 象 的 方 
式 表 示 节 点 。 修 改 GraphPath 类 作业 ， 从 表示 市 点 的 datum 组 成 的 Avro 
0 读者 可 以 使 用 下 面 的 示例 模式 ， 但 还 可 以 对 其 进行 
改进 。 








":; "record", 

": "Graph_representation", 
LL 。 [ 

": "node id", "type": "int"}, 
": "neighbors", "type": "array", "items:"int"” }, 
": "distance", "type": "int"}, 

": "status", "type": "enum", 


["PENDING", "CURRENT", "DONE" 





继续 研究 Avro 


本 章 的 案例 研究 仅 提 到 了 Avro 的 部 分 特性 。 我 们 重点 介绍 了 Avro 作为 静 
态 数据 表示 方法 的 价值 。 它 还 可 以 用 在 RPC (remote procedure call， 远 

程 过 程 调 用 ) 框架 中 ，Hadoop 2.0 可 以 选择 它 作 为 默认 的 RPC 格 式 。 我 

们 没有 使 用 Avro 的 代码 生成 工具 ， 它 可 以 产生 特定 领域 的 API。 我 们 也 
没有 讨论 Avro 对 模式 演变 的 支持 ， 比 如 ， 它 可 以 在 新 记录 中 加 入 新 字段 
0 i 这 种 技术 在 未 来 应 该 会 得 到 更 广 

这 的 应 用。 











5.19 小结 


本 章 通 过 3 个 案例 研究 ， 重 点 介绍 了 Hadoop 的 一 些 高 级 特性 及 其 广泛 的 
生态 系统 。 我 们 特别 讨论 了 不 同类 型 联结 的 本 质问 题 以 及 它们 在 Hadoop 
的 哪个 阶段 出 现 ， 如 何 相对 简单 却 又 高 效 地 实现 reduce 端 联结 ， 以 及 如 
何 把 数据 送 进 Distributed Cache 避 免 map 端 的 完整 联结 。 


接着 ， 我 们 学 习 了 如 何 实现 完整 的 map 端 联结 ， 但 它 需 要 对 输入 数据 进 
行 大 量 处 理 。 如 果 经 常 需要 进行 联结 操作 ， 应 当 研 究 其 他 工具 ， 比 如 
Hive 和 Pig。 还 介绍 了 如 何 考虑 像 图 这 样 的 复杂 类 型 以 及 在 MapReduce 中 
用 怎样 的 方法 表示 图 。 


我 们 还 学 习 了 将 图 算法 分 成 多 阶段 MapReduce 作 业 的 技术 ， 语 言 无 关 的 
数据 类 型 的 重要 性 ， 如 何 使 用 多 种 语言 操作 Avro 数 据 ， 以 及 如 何 将 Avro 
扩展 到 MapReduce API( 它 允许 使 用 结构 类 型 作为 MapReduce 作 业 的 输 
入 输出 ) 。 


现在 ， 我 们 对 Hadoop MapReduce 编 程 的 介绍 就 结束 了 。 第 6 章 和 第 7 章 
将 讨论 如 何 管理 Hadoop 集 群 以 及 如 何 扩展 其 规模 。 











第 6 章 ”故障 处 理 


Hadoop 的 一 个 重要 特性 是 故障 恢复 能 力 ， 本 章 将 重点 学 习 Hadoop 的 
容错 机 制 。 


本 章 包 括 以 下 内 容 : 


。 Hadoop 如 何 处 理 DataNode 和 TaskTracker 的 故障 ; 








。 Hadoop 如 何 处 理 NameNode 和 JobTracker 的 故障 ; 
。 人 硬件 故障 对 Hadoop 的 影响 ; 

。 如 何 处 理由 软件 缺陷 引发 的 任务 故障 ; 

。 错误 数据 如 何 引 发 任务 故障 以 及 应 对 方法 。 


同时 ， 我 们 将 更 深入 地 理解 Hadoop 的 各 个 部 件 是 如 何 协同 工作 的 ， 并 通 
过 实践 及 现 一 些 好 的 做 法 。 





6.1 故障 


在 许多 技术 领域 中 ， 很 少见 到 技术 文档 会 用 大 量 篇 幅 来 介绍 故障 处 理 方 
法 。 通 党 ， 人 们 认为 只 有 技术 专家 才 会 对 故障 处 理 技 术 感 兴趣 。 在 

Hadoop 中 ， 故 障 处 理 的 位 置 更 靠 前 而 且 是 一 个 核心 问题 。Hadoop 架 构 
2 





6.1.1 拥抱 故障 


近年 来 ， 与 传统 的 害怕 发 生 故 障 的 心态 不 同 ， 出 现 了 一 种 被 称 为 “拥抱 
故障 ”的 全 新 理念 。 之 前 人 们 寄 希 望 于 不 发 生 故 障 ， 现 在 则 是 接受 故障 
古 无 法 避免 的 事实 ， 并 知道 故障 及 生 时 系统 和 流程 应 如 何 应 对 。 


6.1.2 ”至少 不 怕 出 现 故障 


这 是 一 种 理念 上 的 延伸 ， 因 此 ， 本 章 目 的 在 于 让 读者 明白 如 何 应 对 
Hadoop 系 统 中 的 各 类 故障 ， 不 至 于 在 发 生 故 障 时 和 手足无措。 我 们 将 通过 
杀 死 正在 运行 的 群集 中 的 进程 ， 故 意 造 成 软件 失败 ， 回 作业 推送 错误 数 
据 等 多 种 方式 尽 可 能 制造 破坏 。 


6.1.3 ”严禁 模仿 
通常 ， 由 于 测试 实例 被 滥用 ， 业 务 系 统 已 对 其 进行 了 防范 ， 因 此 并 不 会 
对 业务 系统 造成 破坏 。 但 是 ， 我 们 仍 不 主张 对 运行 中 的 Hadoop 集 群 实施 
本 章 给 出 的 破坏 实例 ， 尽 管 除了 一 两 个 非常 特殊 的 案例 ， 其 他 的 都 没有 
危险。 我 们 的 目标 是 了 解 各 类 故障 的 影响 ， 以 便 关 键 业 务 系统 发 生 故 障 
时 ， 清 楚 地 知道 这 是 不 是 一 个 问题 。 幸 运 的 是 ，Hadoop 可 以 为 我 们 处 理 
大 部 分 故障 。 
6.1.4 ”故障 类 型 
我 们 通常 将 故障 划分 为 以 下 5 类 。 

区 启 


故障 ， 也 就 是 DataNode 或 TaskTracker 进 程 的 故障 。 











。 集群 主 节 点 的 故障 ， 也 就 是 NameNode 或 JobTracker 进 程 的 故障 。 

。 便 件 故 障 ， 包 括 主机 朋 尝 、 人 硬盘 故障 等 。 

。 MapReduce 作 业 中 由 软件 错误 引发 的 个 别 任 务 故障 。 

。 MapReduce 作 业 中 由 数据 问题 引发 的 个 别 任务 故障 。 
我 们 将 会 在 下 面 各 节 中 依次 讲解 各 种 情况 。 
6.1.5 Hadoop 节 点 故障 
我 们 将 探讨 的 第 一 类 故障 是 ， 个 别 DataNode 或 TaskTracker 进 程 意外 终止 
引发 的 故障 。Hadoop 声 称 通过 解决 硬件 故障 保证 系统 可 用 性 ， 我 们 认为 
有 理由 相信 这 个 说 法 。 确 实 ， 随 着 集群 规模 增长 到 成 百 上 干 台 主机 ， 个 
别 节点 发 生 故 障 的 可 能 性 相当 普通 。 
在 杀 死 进程 之 前 ， 我 们 将 介绍 一 款 新 工具 ， 并 正确 设置 群集 。 


1. dfsadmin 命令 


dfsadmin 命令 行 工具 可 以 代替 HDFS 网 页 用 户 接 口 ， 查 看 集群 的 工作 状 
态 。 其 用 法 如 下 : 


$ Hadoop dfsadmin 


上 述 命令 会 列 出 dfsadmin 命令 的 多 个 选项 。 为 了 得 看 集群 状态 ， 我 们 
吏 用 -report 选项 。 该 命令 给 出 了 集群 整体 状态 的 概述 ， 包 括 额定 容 
量 、 节 点数 、 文 件数 和 每 个 节点 的 具体 配置 细 市 。 


ES 








2. 集群 设置 、 测 试 文件 和 数据 块 大 小 


后 续 实 践 需 要 一 个 全 分 布 式 的 集群 ， 其 安装 步骤 参 见 本 书 前 述 内 容 。 该 
集群 中 使 用 1 台 主 机 作为 JobTracker 和 NameNode， 其 他 4 台 主 机 用 于 运行 
DataNode 和 TaskTracker 进 程 。 








提示 :， 请 注意 ， 无 需 为 每 个 节点 配套 物理 便 件 ， 我 们 使 用 虚拟 机 组 
建 Hadoop 集 群 。 


正常 情况 下 ，Hadoop 集 群 的 数据 块 大 小 通常 设 为 64 MB 。 但 该 配置 并 不 
适合 用 于 测试 ， 因 为 要 将 文件 切 分 成 多 份 分 布 在 多 点 集群 上 ， 震 要 特别 
大 的 文件 才 行 。 

这 就 需要 我 们 在 配置 时 减 小 数据 块 大 小 。 既 然 这 样 ， 我 们 将 数据 块 大 小 


配置 为 4MB。 请 对 Hadoop conf 目录 下 的 hdfs-site.xml 进行 如 下 修 
Bs 





<property> 

<name>dfs.block.sizex</name> 
<value>41943864</value> 

;</property> 

<property> 
<name>dfs.namenode.1logging.1level</name> 


<value>all</value> 
</property> 








第 一 个 属性 修改 的 是 数据 块 大 小 ， 第 二 个 属性 提升 『 了 NameNode 的 日 志 
级 别 ， 因 此 一 些 对 数据 块 的 操作 也 会 出 现在 日 志文 件 中 。 


提示 : ”对 本 次 测试 而 言 ， 所 有 这 些 设置 都 恰到好处 ; 但 它们 很 少 用 
在 产品 集群 的 配置 中 。 尽 管 在 调查 非常 难 的 问题 时 ， 可 能 需要 调 高 
NameNode 的 日 志 级 别 ， 但 是 绝对 不 可 能 将 数据 块 设 为 4 MB 这 么 小 。 
虽然 Hadoop 可 处 理 较 小 的 数据 块 ， 但 是 小 数据 块 会 影响 Hadoop 的 运 
行 效率 。 
我 们 还 需要 一 个 大 小 适中 的 测试 文件 ， 它 需要 被 切 分 为 多 个 4 MB 大 小 
的 数据 块 。 实 际 上 ， 我 们 不 会 用 到 该 文件 的 内 容 ， 所 以 文件 类 型 在 这 里 
并 不 重要 。 但 是 ， 为 了 给 后 几 节 提供 便利 ， 你 应 该 把 手 涉 上 最 大 的 文件 
复制 到 HDFS。 此 处 ， 我 们 使 用 了 一 个 CD ISO 映像 文件 。 


$ Hadoop fs -put cd.iso file1.data 





3. Elastic MapReduce 的 容错 机 制 


为 了 更 明确 地 介绍 故障 细节 ， 本 书 使 用 本 地 Hadoop 集 群 作为 例子 。 
EMR 的 容错 机 制 与 本 地 集群 完全 相同 ， 因 此 这 里 讲 到 的 故障 情景 既 适 用 
于 本 地 Hadoop 集 群 也 适用 于 EMR 托 管 的 集群 。 


6.2 ”实践 环节 : 杀 死 DataNode 进 程 


首先 ， 杀 掉 一 个 DataNode 进 程 。 回 忆 一 下 ，HDFS 集 群 的 每 台 主机 都 运 
行 着 一 个 DataNode 进 程 ， 它 人 默认 情 
况 下 ，Hadoop 中 数据 块 的 复制 因子 为 3， 因 此 ， 我 们 希望 单个 DataNode 
的 故障 不 会 直接 影响 到 Hadoop 的 可 用 性 。 当 然 ， 单 个 DataNode 的 故障 

会 导致 菜 些 数 据 块 的 副本 数量 暂时 小 于 复制 因子 门限 值 。 执 行 下 列 步 又 
杀 死 DataNode 进 程 。 


1. 首先 ， 查 看 集群 的 原始 状态 并 检查 所 有 部 件 是 否 正常 工作 。 使 
用 dfsadmin 命令 实现 这 个 目的 。 








$ Hadoop dfsadmin -report 

Configured Capacity: 81376493568 (75.79 GB) 
Present Capacity: 61117323926 (56.92 GB) 
DFS Remaining: 59576766464 (55.49 GB) 

DFS Used: 1546557456 (1.43 GB) 

DFS Used%: 2.52% 

Under replicated blocks: 6 

Blocks with corrupt replicas: 

Missing blocks: 6 


Datanodes available: 4 (4 total, 60 dead ) 


Name: 10.0.0.102:50016 

Decommission Status : Normal 

Configured Capacity: 26344123392 (18.95 GB) 
DFS Used: 463666966 (384.91 MB) 

Non DFS Used: 5663119494 (4.72 GB) 

DFS Remaining: 14877396992(13.86 GB) 

DFS Used%: 1.98% 

DFS Remaining%: 73.13% 

Last contact: Sun Dec 64 15:16:27 PST 20811 





现在 登录 到 其 中 一 个 节点 ， 使 用 jps 命令 查看 DataNode 进 程 的 进程 
ID: 


$ jps 

2085 TaskTracker 
2169 Jps 

1928 DataNode 





2. 使 用 DataNode 的 process ID (PID) 杀 死 进程 。 


$ kill -9 1928 


3. 检查 DataNode 进 程 是 否 仍 在 运行 。 


$ jps 
2685 TaskTracker 





4. 再 次 使 用 dfsadmin 命令 查看 集群 状态 。 


$ Hadoop dfsadmin -report 

Configured Capacity: 81376493568 (75.79 GB) 
Present Capacity: 61117323926 (56.92 GB) 
DFS Remaining: 59576766464 (55.49 GB) 

DFS Used: 1546557456 (1.43 GB) 

DFS Used%: 2.52% 

Under replicated blocks: 6 

Blocks with corrupt replicas: 6 

Missing blocks: 6 


Datanodes available: 4 (4 total, 60 dead) 








5. 要 重点 关注 包含 每 个 节点 的 数据 块 数量 、 活 跃 节 点 数 和 最 后 通信 时 
间 的 行 。 死 亡 节点 的 最 后 通信 时 间距 现在 差不多 10 分 钟 的 时 候 ， 经 
常 使 用 $ Hadoop dfsadmin -report 查看 集群 状态 ， 直 到 数据 块 


的 数量 和 活跃 市 反 数 发 生变 化 。 


$ Hadoop dfsadmin -report 

Configured Capacity: 61632376176 (56.84 GB) 
Present Capacity: 46636327656 (42.87 GB) 
DFS Remaining: 44520288256 (41.46 GB) 

DFS Used: 1516638794 (1.41 GB) 

DFS Used%: 3.28% 

Under replicated blocks: 12 


Blocks with corrupt replicas: 6 
Missing blocks: 6 


Datanodes available: 3 (4 total，1 dead ) 





6. 重复 上 述 过 程 ， 直 到 再 次 输出 “Under replicated blocks: 6 ”。 
$ Hadoop dfsadmin -report 
nde replicated blocks: 0 


Blocks with corrupt replicas: 6 
Missing blocks: 6 


Datanodes available: 3 (4 total，1 dead ) 





原理 分 析 


从 较 高 的 视角 来 看 ， 似 乎 并 无 难 解 之 处 。Hadoop 确 认 集 群 中 少 了 一 个 节 
但 是 ， 为 了 解决 该 问题 ，Hadoop 做 了 大 量 工 


当 我 们 杀 死 Datanode 进 程 时 ， 该 主机 上 的 进程 已 经 不 再 提供 服务 或 接收 
数据 块 进行 读 / 写 操作 。 但 是 ， 当 时 我 们 并 没有 访问 文件 系统 ， 那 么 
NameNode 进 程 是 怎么 知道 某 个 特定 的 DataNode 已 经 无 法 提供 服务 了 

呢 ? 


NameNode 和 DataNode 之 间 的 通信 


答案 是 NameNode 和 Datanode 进 程 之 间 保 持 着 频 索 通信 。 虽 然 我 们 曾经 
提 到 过 一 两 次 它们 之 间 的 通信 ， 却 从 来 没有 详细 地 解释 。 这 个 过 程 由 
DataNode 发 出 的 一 系列 固定 心跳 消息 完成 ， 这 些 消息 同 NameNode 报 告 
其 当前 状态 及 保存 的 数据 块 。 作 为 回应 ，NameNode 癌 DataNode 发 出 指 
令 ， 如 通知 DataNode 新 建 一 个 文件 或 命令 它 从 另 一 节点 获取 数据 块 。 


当 NameNode 进 程 启动 起 来 并 开始 接收 DataNode 的 状态 信息 时 ， 整 个 通 
信 过 程 就 已 经 开始 。 回 想 一 下 ， 每 个 DataNode 知 道 其 NameNode 的 位 
置 ， 并 不 断 癌 其 发 送 状 态 报 告 。 这 些 消息 列 出 了 各 个 DataNode 保 存 的 数 
据 块 。 基 于 这 些 信 息 ，NameNode 能 够 在 数据 块 和 文件 、 路 径 之 间 建 立 
完整 映射 ， 这 样 NameNode 束 会 知道 文件 由 哪些 数据 块 组 成 以 及 这 些 数 
据 块 存放 在 哪些 节点 之 上 。 


NameNode 进 程 对 每 个 DataNode 最 后 一 次 发 送 心跳 信息 的 时 间 进 行 监 
测 ， 一 旦 该 时 间 超 过 门限 值 之 后 ，NameNode 就 会 认定 某 个 DataNode 无 
法 继续 使 用 ， 并 将 其 标记 为 dead。 


提示 : ”DataNode 被 认定 为 dead 的 准确 门限 值 并 不 是 HDFS 的 一 个 可 配 

置 属性 。 相 反 ， 它 是 通过 其 他 几 个 属性 计算 得 出 的 ， 比 如 心跳 间隔 属 

性 在 该 值 的 计算 中 起 决定 作用 。 稍 后 我 们 会 看 到 ，MapReduce 的 对 应 

人 
空 制 | 。 


一 旦 某 个 DataNode 被 标记 为 死亡 节点 ，NameNode 进 程 会 确定 哪些 数据 
块 存储 在 该 节点 上 ， 这 些 数据 块 的 副本 数 已 跌 破 其 复制 因子 。 在 默认 情 
况 下 ， 被 杀 死 节点 上 存储 的 数据 块 是 3 个 副本 中 的 一 个 ， 所 以 该 节点 存 
储 的 数据 块 在 集群 中 只 剩 有 2 个 副本 。 


在 前 面 例子 中 ， 我 们 发 现 有 12 个 数据 块 的 副本 数量 小 于 其 复制 因子 ， 也 
就 是 说 ， 这 些 数 据 块 在 整个 集群 中 的 副本 数量 无 法 达到 其 目标 数量 。 当 
NameNode 进 程 明 确 了 副本 数 过 低 的 数据 块 后 ， 它 分 配 其 他 DataNode 从 
现 有 副本 驻 留 主机 复制 这 些 数据 块 。 在 这 种 情况 下 ， 需 要 重新 复制 的 数 
据 块 的 数量 很 少 。 在 活跃 集群 中 ， 一 个 节点 的 故障 会 导致 一 段 时 间 的 高 
eS 因为 NameNode 会 安排 其 他 节点 重新 复制 死亡 节点 存储 的 数 
所 块 。 


























需要 注意 的 是 ， 如 果 出 现 故障 的 市 把 重新 恢复 正常 运行 ， 该 节点 存储 的 
数据 块 在 集群 中 的 副本 数量 可 能 超过 所 需 数量 。 在 这 种 情况 下 ， 
NameNode 进 程 会 发 出 指令 ， 要 求 删除 多 余 副 本 。 系 统 随 机 选择 要 删除 
的 副本 ， 因 此 ， 可 能 会 出 现 恢 复 正 常 运行 的 节点 保留 了 部 分 数据 块 ， 却 
删 近 了 其 他 数据 块 的 情况 。 











一 展 身 手 : 深入 研究 NameNode 的 日 志 


我 们 已 配置 NameNode 进 程 记录 其 所 有 活动 。 浏 览 这 些 非 常 详细 的 日 
志 ， 并 试 着 从 中 找 出 NameNode 向 DataNode 发 出 的 复制 要 求 。 


最 终 得 出 显示 了 将 副本 数量 不 足 的 数据 块 复制 到 活跃 节点 后 的 集群 状 
态 。 集 群 的 活跃 市 反 数 下 降 到 3 个 ， 但 是 所 有 的 数据 块 都 达到 了 其 复制 
因子 的 要 求 。 


技巧 :使 用 start-all.sh 脚本 可 快速 重启 所 有 主机 中 的 死亡 市 后 。 
该 脚本 在 局 动 所 有 部 件 之 前 ， 会 智能 检测 正在 运行 的 服务 ， 这 残 意味 
大 ， 它 会 重启 死亡 节点 却 不 会 对 活跃 节点 产生 影响 。 

















6.3 ”实践 环节 : 复制 因子 的 作用 


本 市 将 重复 杀 死 进程 的 步 台 ， 但 这 次 ， 要 在 由 4 个 市 点 组 成 的 集群 中 欠 
死 2 个 DataNode。 我 们 仅 会 简略 描述 这 个 过 程 ， 因 为 它 与 上 一 个 实践 环 
节 的 步骤 非常 相似 。 


1. Re 直到 所 有 市 把 痢 被 标记 为 活跃 市 


2. 选择 其 中 2 个 DataNode， 使 用 其 进程 ID 杀 挤 相应 进程 。 


3 和 上 一 个 实践 环节 的 操作 类 似 ， 等 候 大 约 10 分 钟 之 后 ， 通 过 
dfsadmin 命令 查看 集群 状态 ， 特 别 要 关注 副本 数量 低 于 复制 因子 
的 数据 块 的 数量 。 


4. 等 到 集群 状态 稳定 之 后 ， 输 出 以 下 内 容 。 


Configured Capacity: 61632376176 (56.84 GB) 
Present Capacity: 45842373555 (42.69 GB) 
DFS Remaining: 44294686576 (41.25 GB) 

DFS Used: 1547692979 (1.44 GB) 

DFS Used%: 3.38% 

Under replicated blocks: 125 

Blocks with corrupt replicas: 6 

Missing blocks: 6 





Datanodes available: 2 (4 total, 2 dead) 





原理 分 析 


这 个 过 程 与 上 一 个 “实践 环 市 ”的 过 程 相同 。 区 别 在 于 ， 由 两 个 DataNode 
发 生 故 障 引 起 的 副本 数量 小 于 复制 因子 的 数据 块 明显 增多 ， 多 个 数据 块 
的 副本 数量 降 为 1。 因 此 ， 读 者 会 看 到 ， 由 于 多 个 节点 故障 造成 “Under 
replicated blocks” 的 值 明显 增 大 ， 之 后 随 着 重新 复制 过 程 的 进行 ，“Under 
replicated blocks” 的 值 逐 步 下 降 。 这 些 活动 也 可 以 从 NameNode 节 点 的 日 











需要 注意 的 是 ， 虽 然 Hadoop 可 以 通过 重新 复制 策略 将 只 剩 一 个 副本 的 数 
据 块 复制 为 两 个 副本 ， 但 这 些 数据 块 的 数量 仍 处 于 under-replicated 状 

态 。 由 于 集群 中 只 有 两 个 活跃 节点 ， 任 何 数据 块 的 副本 数量 都 无 法 达到 
默认 的 三 个 副本 的 目标 。 


为 了 节省 版 面 ， 我 们 截断 了 dfsadmin 命令 的 输出 。 尤 其 是 ， 一 直 以 来 
我 们 都 忽略 了 每 个 节点 的 状态 信息 。 然 而 ， 让 我 们 看 看 经 过 上 述 操 作 后 
0 点 的 状态 。 在 未 杀 掉 任何 DataNode 之 前 ， 其 状态 输出 
[下 所 示 。 











Name: 106.60.0.10601:506006010 

Decommission Status : Normal 

Configured Capacity: 26344123392 (18.95 GB) 
DFS Used: 399379827 (386.88 MB) 

Non DFS Used: 5664258189 (4.72 GB) 

DFS Remaining: 14886485376(13.86 GB) 


DFS Used%: 1.96% 
DFS Remaining%: 73.14% 
Last contact: Sun Dec 64 15:16:27 PST 2011 








在 杀 邱 一 个 DataNode 节 点 ， 所 有 数据 块 都 按 需 重新 复制 之 后 ， 其 状态 输 
出 如 下 所 示 。 


Name: 10.0.0.101:50016 

Decommission Status : Normal 

Configured Capacity: 26344123392 (18.95 GB) 
DFS Used: 5152366022 (491.37 MB) 

Non DFS Used: 5616289698 (4.67 GB) 

DFS Remaining: 14812598272(13.8 GB) 


DFS Used%: 2.53% 
DFS Remaining%: 72.81% 
Last contact: Sun Dec 64 15:31:22 PST 2011 








需要 注意 的 是 ， 该 节点 上 的 本 地 DFS 存 储量 增加 了 。 这 并 不 足 为 奇 。 由 
于 集群 出 现 了 一 个 死记 节点， 集群 中 的 其 他 节点 需要 增加 一 些 额外 的 数 








据 块 副本 ， 这 融 造 成 了 每 个 节点 上 已 用 存储 空间 的 增加 。 


在 集群 中 的 另外 两 个 DataNode 被 杀 死 之 后 ， 第 一 个 节点 的 状态 如 下 所 
外。 


Name: 10.0.0.101:50016 

Decommission Status : Normal 

Configured Capacity: 26344123392 (18.95 GB) 
DFS Used: 514289664 (496.46 MB) 

Non DFS Used: 5663868416 (4.72 GB) 

DFS Remaining: 14765965312(13.75 GB) 


DFS Used%: 2.53% 
DFS Remaining%: 72.58% 
Last contact: Sun Dec 64 15:43:47 PST 2011 





集群 中 的 死亡 市 反 增 加 到 了 2 个 ， 似 乎 剩余 的 活跃 节点 应 该 消耗 更 多 的 
Re 
力 关 系 。 


如 琳 集 群 由 4 个 节点 组 成 ， 其 复制 因子 为 3， 那 么 其 中 3 个 活跃 市 点 会 分 
别 存储 每 个 数据 块 的 3 个 副本 。 假 如 和 死 掉 1 个 和 节点， 存储 于 其 余 3 个 节点 
的 数据 块 不 受 影 响 ， 而 存储 在 该 节点 的 数据 块 需要 新 建 一 个 副本 。 但 

是 ， 由 于 只 有 3 个 活跃 节点 ， 每 个 节点 需要 为 每 个 数据 块 保存 1 个 副本 。 
假如 第 2 个 节 氮 发 生 故 障 ， 会 导致 所 有 数据 块 的 副本 数量 都 小 于 复制 因 
子 ， 同 时 Hadoop 找 不 到 地 方 存放 额外 副本 。 因 为 剩余 的 存活 节点 已 经 为 
每 个 数据 块 保 存 了 1 个 副本 ， 它 们 的 空间 使 用 率 不 会 继续 增加 。 

















6.4 ”实践 环节 : 故意 造成 数据 块 丢失 

很 明显 ， 下 一 步 我 们 将 快速 杀 掉 3 个 DataNode。 
技巧 : 之 前 我 们 曾 提 到 ， 有 些 操作 不 能 在 产品 集群 上 进行 ， 这 个 例 
子 驶 是 这 种 情况 。 尽 管 这 些 步骤 如 果 操 作 得 当 ， 不 会 引起 数据 丢失 ， 
但 却 会 导致 现 有 数据 在 某 段 时 间 内 无 法 使 用 。 


使 用 以 下 步骤 连续 杀 死 3 个 DataNode。 


1. 





使 用 下 列 命令 重启 所 有 市 反 。 


$ start-all.sh 


.等待 ， 直 到 Hadoop 的 dfsadmin -report 命令 显示 有 4 个 活跃 节 
点 


.把 测试 文件 的 新 副本 filel.new 放 到 HDFS 上 。 


$ Hadoop fs -put filel.data filel.new 





.登录 到 集群 中 的 3 台 主 机 并 杀 死 每 台 主机 上 的 DataNode 进 程 。 








.等候 10 分 钟 ， 之 后 通过 dfsadmin 命令 监视 集群 状态 ， 直 到 集群 状 
态 如 下 所 示 。 





Under replicated blocks: 123 
Blocks with corrupt replicas: 6 
Missing blocks: 33 


Datanodes available: 1 (4 total, 3 dead) 


6. 尝试 从 HDFS 获 取 测 试 文件 filel .new 。 


$ hadoop fs -get filel.new filel.new 

11/12/64 16:18:65 INFO hdfs.DFSClient: No node available for 

block: blk 1691554429626293399 1663 file=/user/hadoop/filel.new 
11/12/64 16:18:65 INFO hdfs.DFSClient: Could not obtain block 
blk_1691554429626293399 1663 from any node: java.io.IOException: 
No live nodes contain current block 


get: Could not obtain block: blk 1691554429626293399 1663 file=/ 
user/hadoop/filel1.new 





7. 使 用 start-all.sh 脚本 重启 所 有 死亡 节点 。 


$ start-all.sh 


8. 不 断 监视 数据 块 状态 。 


$ Hadoop dfsadmin -report | grep -i blocks 
Under replicated blockss: 69 

Blocks with corrupt replicas: 6 

Missing blocks: 35 

$ Hadoop dfsadmin -report | grep -i blocks 
Under replicated blockss: 0 


Blocks with corrupt replicas: 6 
Missing blocks: 36 





9. 等 到 输出 Missing blocks: 6， 然后 将 测试 文件 filel.new 拷贝 
到 本 地 文件 系统 。 


$ Hadoop fs -get filel.new filel.new 


| 


10. 对 获取 的 文件 和 原始 文件 进行 MD5 校 验 。 


$ md5sum filel.* 
f1f36b26b46f8362156bc2a494c1961d file1.data 
f1f36b26b46f8362156bc2a494c1961d file1.new 





原理 分 析 


在 重 局 被 杀 死 进程 之 后 ， 我 们 将 测试 文件 拷贝 到 HDFS。 严 格 意义 上 来 
讲 ， 将 测试 文件 找 贝 到 HDFS 并 不 是 必需 的 ， 我 们 也 可 以 使 用 HDFS 上 的 
己 有 文件 ， 但 由 于 数据 块 分 别 存储 在 不 同 的 主机 ， 使 用 原始 副本 得 出 的 
结果 更 具 代 表 性 。 


之 后 ， 我 们 按照 前 述 步骤 杀 死 3 个 DataNode， 并 等 候 HDFS 的 响应 。 与 前 
面 几 个 例子 不 一 样 的 是 ， 杀 死 这 么 多 节点 意味 着 某 些 数据 块 的 所 有 副本 
都 存储 在 被 杀 死 的 节点 上 。 如 我 们 所 见 ， 结 果 正 是 如 此 : 仅 剩 1 个 节点 
的 集群 中 有 100 多 个 数据 块 的 副本 数量 低 于 复制 因子 (很 明显 ， 这 些 数 
据 块 仅 剩 1 个 副本 ) ， 同 时 丢 了 33 个 数据 块 。 


讨论 数据 块 有 后 抽 象 ， 所 以 我 们 尝试 获取 测试 文件 。 因 为 我 们 知道 ， 由 
于 缺少 33 个 数据 块 造成 测试 文件 不 完整 ， 就 像 是 有 33 个 洞 。 访 问 测 试 文 
件 以 失败 告终 ， 因 为 Hadoop 无 法 找到 缺失 的 数据 块 ， 而 这 些 数据 块 在 文 
件 传送 过 程 中 是 必需 的 。 

接 下 来 我 们 重新 局 动 所 有 节点 并 再 次 尝试 获取 测试 。 这 一 次 终于 成 功 

了 ， 但 我 们 采取 了 一 个 额外 的 验证 措施 ， 对 获得 的 文件 进行 MD5 校 验 ， 
以 确认 它 与 原始 文件 完全 相同 一 一 结果 确实 如 此 。 


从 本 例 可 以 看 出 ， 昌 然 节 扣 故 障 可 能 会 导致 数据 无 法 访问 ， 但 市 反 恢 复 
之 后 ， 这 个 暂时 性 的 数据 缺失 问题 就 不 复 存在 。 这 点 特别 重要 。 









































1. 数据 丢失 的 可 能 性 





不 要 从 本 例 中 轻易 得 出 Hadoop 集 群 不 会 丢失 数据 这 样 的 结论 。 一 自 来 
0 0 0 0 
现 。 


如 上 例 所 示 ， 不 少 于 复制 因子 的 多 个 市 点 同时 发 生 故 障 有 可 能 导致 数 据 
块 缺失 。 在 由 4 台 主 机 组 成 的 示例 集群 中 ，3 个 死亡 节点 导致 数据 块 缺 失 
的 可 能 较 高 。 在 由 1000 台 主机 组 成 的 集群 中 ， 这 个 可 能 性 相对 较 低 但 仍 
然 存 在 。 随 着 集群 规模 增 大 ， 故 障 率 也 随 之 增 大 ， 狭 小 的 时 间 窗 口内 ， 
3 个 节点 同时 发 生 故 障 的 可 能 性 越 来 越 低 。 因 此 ， 它 市 来 的 影响 也 减 小 
了 ， 但 多 个 市 点 接 连 发 生 故 障 总 会 带 来 数据 丢失 的 风险 。 


妨 一 个 隐蔽 的 问题 是 反复 故障 或 局 部 故障 。 例 如 ， 整 个 集群 的 不 稳定 电 
源 会 导致 节点 反复 关机 和 重启 。 Hadoop 为 了 达成 复制 目标 ， 可 能 会 不 
断 要 求 恢 复 运 行 的 主机 复制 那些 副本 数量 少 于 复制 因子 的 数据 块 ， 电 源 
问题 导致 的 突然 关机 又 会 造成 这 些 任务 的 中 途 失 败 。 这 样 一 系列 事件 也 
会 提高 潜在 的 数据 丢失 风险 。 


最 后 ， 不 要 起 了 人 为 因素 。 即 使 将 复制 因子 设置 为 集群 中 的 主机 数量 ， 
它 保 证 了 每 个 节点 上 都 存储 了 一 份 数据 副本 ， 但 在 用 户 意 外 删除 文件 或 
目录 时 也 无 济 于 事 。 


结论 是 ， 由 系统 故障 造成 的 数据 丢失 的 可 能 性 很 小 ， 但 由 无 法 避免 的 人 
工 操作 造成 的 数据 丢失 的 可 能 性 仍然 存在 。 复 制 数 据 并 不 是 一 个 完整 的 
备份 方案 。 用 户 必须 充分 认识 到 每 处 理 数 据 的 重要 性 以 及 本 市 讨论 的 数 
据 丢 失 对 我 们 造成 的 影响 。 


提示 : ”实际 上 ，Hadoop 焦 群 中 最 严重 的 数据 丢失 是 由 NameNode 和 文 
件 系 统 损 坏 造 成 的 。 我 们 将 在 下 一 章 比较 详细 地 讨论 这 一 话题 。 





























2. 数据 块 损坏 


DataNode 发 出 的 状态 报告 中 也 包括 了 已 损坏 数据 块 的 数量 ， 这 一 点 我 们 
之 前 从 未 提 及 。DataNode 将 数据 块 初次 写 入 HDFS 时 ， 同 时 将 一 个 包含 
本 数据 块 密码 校 验 和 的 隐藏 文件 写 入 相同 目录 。 默 认 情 况 下 ，DataNode 
为 每 512 字 节 生 成 一 个 校 验 和 。 


每 当 客 户 问 读 取 数 据 块 时 ， 同 时 也 会 读 取 校 验 和 列表 。 客 户 端 会 计算 已 
读 取 数据 的 校 验 和 ， 并 将 其 与 获取 的 校 验 和 列表 进行 对 比 。 如 果 两 个 校 











验 和 不 一 致 ， 访 DataNode 节 点 上 的 数据 块 被 标记 为 损坏 数据 ， 客 户 端 会 
获取 另 一 个 副本 。 得 知 数据 块 已 损坏 之 后 ，NameNode 会 调度 该 
DataNode 基 于 现 有 的 未 损坏 副本 生成 一 个 新 的 副本 。 


如 琳 你 认为 不 会 发 生 数 据 损坏 的 情况 ， 想 一 下 出 现 故 障 的 内 存 、 便 盘 、 
存储 控制 器， 或 早 台 主机 的 其 他 问题 ， 它 们 都 可 能 在 初次 写 入 数据 块 或 
读 取 数据 块 时 导致 数据 块 损坏 。 这 些 情况 非常 罕见 。 存 储 同 一 数据 块 副 
本 的 所 有 DataNode 发 生 相同 数据 损坏 的 可 能 性 人 微乎其微。 但 是 ， 请 记 
住 ， 正 如 前 面 提 到 的 ， 复 制 并 不 古 一 个 完整 的 备份 方案 ， 如 果 用 户 需 要 
确保 数据 100% 可 用 ， 可 能 需要 考虑 在 集群 之 外 备份 数据 。 














6.5 ”实践 环节 : 杀 死 TaskTrackerj 坦 程 


我 们 已 经 对 HDFS 及 其 DataNode 故 障 进行 了 太 多 的 讨论 ， 现 在 来 看 看 杀 
死 某 些 TaskTracker 进 程 会 对 MapReduce 造 成 什么 损坏 。 


虽然 MapReduce 中 有 一 个 mradmin 命令 与 HDFS 的 dfsadmin 命令 类 似 ， 
但 它 无 法 提供 类 似 HDFS 的 状态 报告 因此 ， 我 们 使 用 MapReduce 的 
Web 用 户 接口 〈 默 认 情 况 下 ， 该 接口 位 于 JobTracker 主 机 的 500 70 端 口 ) 
监测 MapReduce 集 群 的 状态 。 


执行 下 列 步 又 。 


1. 通过 start-all. sh 脚本 启动 所 有 部 件 ， 之 后 将 浏览 右 指 问 
MapReduce 网 页 用 户 接 口 。 页 面 与 下 图 相似 。 
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head Hadoop Map/Reduce Administration 
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2. 启动 一 个 长 期 运行 的 MapReduce 作 业 ， 带 有 较 大 参数 的 计算 圆周 率 
的 示例 程序 就 很 合适 。 


$ Hadoop jar Hadoop/Hadoop-examples-1.6.4.Jjar pi 2566 2566 


| | 


3. 登录 到 集群 中 的 一 个 节点 ， 使 用 jps 命令 确定 TaskTracker 的 进程 
ID 。 


$ jps 

21822 TaskTracker 
3918 Jps 

3891 DataNode 





4. 使 用 下 列 命 令 杀 死 TaskTracker 进 程 。 


$ kill -9 21822 





5. 确认 TaskTracker 不 再 处 于 运行 状态 。 


$jps 
3918 Jps 
3891 DataNode 





6. 返回 MapReduce 网 页 用 户 接口 ，10 分 钟 后 ， 你 应 该 看 到 节点 数 、 可 
用 的 map/reduce slot 数 量 发 生 了 变化 ， 如 下 图 所 示 。 
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head Hadoop Map/Reduce Administration 


State: RUNNING 

Started: Fri Dec 15 16:2310 PST 2011 

‘Version: 0 20 2.rD11707 

Compiled: Fn Feb 19080734 UTC 2010 by chnsdo 
Identifler: 201112161623 


Cluster Summary (Heap Size is 8.1 MB/966.69 MB) 
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7. 在 原来 的 窗口 中 查看 作业 进度 ， 作 业 应 该 处 于 proceeding 状 态 ， 虽 
然 其 运行 缓慢 。 


8. 重启 被 杀 死 的 TaskTracker 进 程 。 


$ start-all.sh 





9. 碍 看 MapReduce 网 页 用 户 接口 。 片 刻 之 后 ， 节 点 数 又 恢复 到 了 原来 
的 数量 ， 如 下 图 所 示 。 
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head Hadoop Map/Reduce Administration 
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Started: Fn Dec 16 16:23 10 PST 2011 
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原理 分 析 


MapReduce 网 页 接口 提供 了 许多 关于 集群 和 作业 的 信息 。 本 节 我 们 感 兴 
趣 的 重要 的 数据 是 Cluster Summary 〈 集 群 摘要 信息 ) ， 包 括 Maps、 
Ruduces (目前 正在 执行 的 map 和 reduce 任 务 数 ) 、Total 

Submissions 〈 已 提交 的 作业 总 数 ) 、Nodes( 节 点数 ) 、Map/Reduce 
Task Capacity (map 和 reduce 任 务 容 量 ) ， 还 有 Blacklisted Nodes 〈 列 入 
黑 名 单 的 节点 数 ) 。 


JobTracker 进 程 和 TaskTracker 进 程 之 间 的 关系 与 NameNode 和 DataNode 之 
间 的 关系 有 较 大 区 别 ， 但 它们 都 使 用 了 类 似 的 心跳 机 制 。 


TaskTracker 进 程 频繁 向 JobTracker 发 送 心跳 信息 ， 但 与 DataNode 向 
NameNode 报 告 数 据 块 的 状态 信息 不 同 ，TaskTracker 的 心跳 信息 包含 任 
务 进度 及 可 用 空间 。 每 个 节点 都 有 一 个 可 配置 的 map 和 reduce slot〈 默 认 
值 为 2〉， 这 束 解 释 了 为 什么 我 们 在 第 一 个 网 页 用 户 接 口 页 面 看 到 集群 
由 4 个 节点 组 成 ， 却 有 8 个 map 和 reduce slot。 


当 我 们 杀 死 TaskTracker 进 程 时 ，JobTracker 进 程 收 不 到 其 心跳 信息 。 在 
用 户 设置 的 时 间 过 后 ， 节 点 被 认定 为 死亡 节点 ， 集 群 容量 相应 地 减少 ， 





这 个 变化 反映 在 网 页 用 户 接口 。 


技巧 : 用 户 可 通过 修改 mapred-site.xml 文 件 的 
mapred.tasktracker.expiry.interval 属 性 配置 TaskTracker 进 程 的 超时 时 间 
值 ， 该 值 被 用 于 认定 节点 是 否 死 亡 。 


当 一 个 TaskTracker 进 程 被 标记 为 死亡 节点 时 ，JobTracker 进 程 会 认为 正 
在 执行 的 任务 失败 ， 并 将 它们 重新 分 配给 集群 中 的 其 他 节点 。 尺 管 某 个 
节点 被 杀 死 了 ， 但 整个 作业 却 最 终 执行 成 功 ， 这 也 从 侧面 验证 了 上 述 内 
人 


重新 启动 TaskTracker 进 程 后 ， 它 会 给 JobTracker 发 送 心跳 消 轧 ， 
JobTracker 会 把 它 标记 为 存活 节点 并 再 次 将 其 纳入 MapReduce 集 群 。 我 
们 在 最 后 那 张 截图 中 看 到 ， 集 群 节点 数 和 任务 slot 容 量 重 新 恢复 到 了 其 
原始 值 ， 这 表明 重启 后 的 TaskTracker 重 新 成 了 MapReduce 集 群 的 一 部 


分 。 























1. DataNode 故 障 和 TaskTracker 故 障 对 比 


我 们 不 会 执行 类 似 的 杀 死 2 个 或 3 个 TaskTracker 节 点 的 操作 ， 因 为 任务 执 
行 运行 机 制 表 明 ， 个 别 的 TaskTracker 故 障 相 对 来 讲 不 是 很 重要 。 因 为 
TaskTracker 进 程 由 JobTracker 控 制 和 协调 ， 个 别 TaskTracker 发 生 故 障 只 
会 减少 集群 可 并 发 运行 的 任务 数 ， 除 此 之 外 不 会 产生 其 他 直接 影响 。 如 
果 一 个 TaskTracker 实 例 失 败 ，JobTracker 会 调度 集群 中 一 个 运转 正常 的 
TaskTracker 进 程 重新 运行 失败 的 任务 。JobTracker 可 以 随意 在 集群 中 重 
新 安排 任务 ， 因 为 TaskTracker 是 无 状态 的 ， 单 个 TaskTracker 故 障 不 会 影 
啊 该 作业 的 其 他 部 分 。 


相反 ，DataNode 本 质 上 是 有 状态 的 ， 某 个 DataNode 故 障 可 以 影响 HDFS 
上 存储 的 持久 数据 ， 可 能 导致 无 法 访问 这 些 数据 。 


上 述 内 容 强 调 了 各 类 节点 的 性 质 及 其 在 整体 Hadoop 框 架 中 的 相互 关系 。 

DataNode 管 理 数 据 ，TaskTracker 对 DataNode 存 储 的 数据 进行 读 写 。 即 使 

每 个 TaskTracker 都 发 生 灾 难 性 故障 ， 都 不 会 影响 到 HDFS 的 功能 。 而 

NameNode 进 程 中 的 类 似 故 障 会 导致 活跃 的 MapReduce 和 集群 无 法 使 用 
《除非 MapReduce 的 配置 允许 其 使 用 其 他 存储 系统 ) 。 








2. 永久 故障 





截至 目前 ， 我 们 假设 死亡 节点 可 在 相同 的 物理 主机 重新 启动 。 但 是 假如 
物理 主机 发 生 了 致命 故障 导致 死亡 节点 无 法 重启 ， 那 该 怎么 办 呢 ? 答案 
很 简单 ， 将 该 主机 从 slaves 文 件 删 反 ，Hadoop 束 不 再 启动 那 台 主机 上 的 
DataNode 或 TaskTracker。 假 如 你 有 一 人 台 蔡 代 主 机 ， 将 新 主机 加 入 到 相同 
文件 并 运行 start-all.sh 脚本 。 











提示 : ”请 注意 ， 只 能 通过 start/stop 和 slaves .sh 脚本 访问 slaves 
文件 。 用 户 只 需 在 运行 这 些 命令 的 主机 上 更 新 该 文件 ， 而 无 需 在 每 个 
节点 都 进行 同样 操作 。 实 际 上 ， 运 行 这 些 命令 的 主机 通常 是 个 专用 的 
主 节 点 ， 或 者 NameNode 或 JobTracker 进 程 所 在 的 主机 。 我 们 将 在 第 7 
章 介绍 这 些 设置 。 


杀 死 集群 主 市 点 


虽然 DataNode 进 程 和 TaskTracker 进 程 发 生 故 障 产生 的 影响 有 大 有 小 ， 但 
是 相对 来 讲 ， 个 别 节点 没 那么 重要 。 无 论 哪个 TaskTracker 或 DataNode 发 
生 故 障 都 不 会 引起 关注 ， 只 有 多 个 节点 发 生 故 障 才 会 给 系统 带 来 问题 ， 

尤其 是 多 个 节点 接二连三 地 发 生 故 障 。 但 是 ， 我 们 只 有 一 个 JobTracker 

和 NameNode， 让 我 们 看 看 它们 发 生 故 障 会 造成 什么 后 果 。 











6.6 ”实践 环节 : 杀 死 JobTracker 


首先 ， 我 们 将 杀 死 JobTracker 进 程 ， 我 们 认为 这 会 影响 执行 MapReduce 
作业 ， 但 不 会 对 HDFS 文 件 系 统 造成 影响 。 


1. 登录 到 JobTracker 主 机 并 杀 死 该 进程 。 


0 


$ Hadoop jar wc.jar WordCount3 test.txt output 

Starting Job 

11/12/11 16:63:29 INFO ipc.Client: Retrying connect to server: 
/16.9.9.166:9601. Already tried 6 time(s). 

11/12/11 16:63:36 INFO ipc.Client: Retrying connect to server: 
/16.9.9.166:9601. Already tried 1 time(s) . 


11/12/11 16:63:38 INFO ipc.Client: Retrying connect to server: 
/16.9.9.166:9601. Already tried 9 time(s) . 


java.net.ConnectException: Call to /16.6.6.166:9661 failed on 


connection exception: java.net.ConnectException: Connection 
refused 
at org.apache.hadoop.ipc.Client.wrapException(Client.java:767) 
at org.apache.hadoop.ipc.Client.call(Client.java:743) 
at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.Jjava:226) 





3. 执行 一 些 HDFS 操 作 。 





$ hadoop fs -ls / 

Found 2 items 

drwxr-xr-x - hadoop supergroup 0 26011-12-11 19:19 /user 
drwxr-xr-x - hadoop supergroup 0 2011-12-64 20:38 /var 
$ hadoop fs -cat test.txt 

This is a test file 


| 


原理 分 析 


在 杀 死 JobTracker 进 程 之 后 ， 我 们 试图 启动 一 个 MapReduce 作 业 。 在 第 2 
章 中 ， 我 们 了 解 到 ， 运 行 作业 的 主机 上 的 客户 端 要 通过 与 JobTracker 的 
通信 完成 作业 调度 的 初始 化 工作 。 但 本 例 中 ，JobTracker 已 经 停止 运 
行 ， 通 信 过 程 无 法 完成 ， 作 业 以 失败 告终 。 


随后 ， 我 们 执行 了 一 些 HDFS 命 令 ， 再 次 强调 了 上 节 提 到 的 要 点 : 运行 
异常 的 MapReduce 和 集群 不 会 对 HDFS 造 成 直接 影响 ， 所 有 的 客户 端 都 可 
访问 HDFS 并 执行 HDFS 命 令 。 





启动 替代 JobTracker 


MapReduce 集 群 的 恢复 也 较为 简单 。 只 要 重 局 JobTracker， 所 有 后 续 
MapReduce 作 业 都 会 成 功 运行 。 


请 注意 ， 当 JobTracker 被 杀 死 时 ，MapReduce 框 架 没 有 保存 任何 正在 执 

行 的 作业 的 状态 信息 ， 所 有 的 未 完成 作业 都 需 重 启 。 要 留意 一 下 HDFS 
上 的 临时 文件 和 临时 目录 ， 许 多 MapReduce 作 业 会 在 HDFS 写 入 一 些 临 

时 数据 ， 并 会 在 作业 运行 结束 时 删 掉 这 些 数据 。 失 败 的 作业 (尤其 是 由 
JobTracker 故 障 引 起 的 失败 作业 〉 可 能 会 留 下 一 些 这 种 文件 ， 用 户 需 要 

手动 清理 这 些 临 时 数据 。 








一 展 身 手 : 在 新 主机 上 运行 JobTracker 


但 是 ， 假 如 JobTracker 进 程 所 在 的 主机 发 生 了 致命 的 硬件 错误 ， 无 法 在 
该 主机 上 重启 JobTracker 进 程 ， 这 时 候 该 怎么 办 呢 ? 在 这 种 情况 下 ， 用 
户 需 要 在 另外 一 台 主 机 上 局 动 一 个 新 JobTracker 进 程 。 这 需要 对 所 有 节 
点 上 的 mapred-site。. xml 文件 进行 修改 ， 更 新 该 文件 中 的 主 节 点 地 
址 ， 并 重启 集群 。 试 着 完成 这 些 操 作 。 我 们 将 在 第 7 章 详 细 探 讨 这 个 话 
题 。 





6.7 ”实践 环节 : 杀 死 NameNode 进 程 


接 下 来 ， 我 们 将 杀 死 NameNode 进 程 。 我 们 认为 ， 这 将 直接 导致 无 法 访 
问 HDFS， 进 而 会 影响 到 MapReduce 框 架 ， 使 MapReduce 作 业 无 法 运 
行 。 
提示 : 不 要 在 正在 运行 的 重要 集群 中 答 试 此 操作 。 尽 管 它 融 来 的 影 
啊 是 短暂 的 ， 但 整个 集群 会 在 一 段 时 间 内 处 于 次 痪 状态 。 


1. 登录 到 NameNode 主 机 并 列 出 所 有 的 正在 运行 的 进程 。 








$ jps 

2372 SecondaryNameNode 
2118 NameNode 

2434 JobTracker 


5153 Jps 





2. 杀 死 NameNode 进 程 。 别 理会 SecondaryNameNode 进 程 ， 可 以 让 它 
继续 保持 运行 。 


3. 尝试 访问 HDFS 文 件 系 统 。 


$ hadoop fs -ls / 

11/12/13 16:66:65 INFO ipc.Client: Retrying connect to server: 
/106.0.0.1060:96600. Already tried 6 time(s) . 

11/12/13 16:66:66 INFO ipc.Client: Retrying connect to server: 
/16.9.9.166:9609. Already tried 1 time(s). 

11/12/13 16:66:67 INFO ipc.Client: Retrying connect to server: 
/16.9.9.166:9669. Already tried 2 time(s). 

11/12/13 16:66:68 INFO ipc.Client: Retrying connect to server: 
/106.0.0.1060:96600. Already tried 3 time(s). 

11/12/13 16:66:69 INFO ipc.Client: Retrying connect to server: 
/160.0.0.160:966060. Already tried 4 

time(s). 


Bad connection to FS. command aborted. 





4. 提交 MapReduce 作 业 。 


$ hadoop jar hadoop/hadoop-examples-1.6.4.Jjar pi 16 
Number of Maps 16 


Samples per 


11/12/13 16: 
/10.0.0.1060: 
11/12/13 16: 
/10.0.0.1060: 
11/12/13 16: 
/10.0.0.1060: 


Map = 

66:35 INFO ipc.Client: Retrying connect to 
9666. Already tried 6 time(s). 

66:36 INFO ipc.Client: Retrying connect to 
9666. Already tried 1 time(s) . 

66:37 INFO ipc.Client: Retrying connect to 
9666. Already tried 2 time(s) . 


Sserver. 


server. 


Server. 


java.lang.RuntimeException: java.net.ConnectException: Call 
to /16.6.6.1660:9666 failed on connection exception: java.net. 
ConnectException: Connection refused 
at org.apache.hadoop.mapred.JobConf.getWorkingDirectory(JobConf. 
at org.apache.hadoop.mapred.FileInputFormat. 
setInputPaths(FileInputFormat.java:3069) 


Caused by: java.net.ConnectException: Call to /16.6.0.166:9666 
failed on connection exception: java.net.ConnectException: 
Connection refused 








5. 查看 正在 运行 的 进程 。 


$ jps 


2372 SecondaryNameNode 


5253 Jps 


2434 JobTracker 
Restart NameNode 


$ start-all. 


6. 访问 HDFS。 


sh 








$ Hadoop fs 
Found 2 items 


drwxr-xr-x 


-ls/ 


- hadoop supergroup 0 2011-12-16 16:18 /user 


drwxr-xr-x - hadoop supergroup 0 2011-12-16 16:23 /var 


原理 分 析 


我 们 杀 死 了 NameNode 进 程 之 后 ， 尝 试 访问 HDFS 文 件 系 统 。 当 然 ， 该 操 
作 以 失败 而 告终 。NameNode 宕 机 之 后 ， 集 群 中 就 没有 接收 文件 系统 命 
令 的 服务 器 了 。 

随后 ， 我 们 试 着 提交 一 个 MapReduce 人 作业， 该 操作 也 没有 成 功 。 从 简略 
的 异常 堆栈 轨迹 可 以 看 出 ， 在 我 们 设置 作业 的 输入 数据 路 径 时 ， 
JobTracker 要 访问 NameNode， 却 没有 成 功 。 


接着 ， 我 们 通过 查看 正在 运行 的 进程 ， 确 定 了 JobTracker 运 行 正常 ， 
MapReduce 作 业 失 败 的 原因 是 无 法 访问 NameNode。 


最 后 ， 我 们 重启 了 NameNode 并 确认 HDFS 运 转正 常 。 





1. 启动 蔡 代 NameNode 


截至 目前 ， 我 们 认识 到 MapReduce 集 群 和 HDFS 集 群 存在 某 些 区 别 。 有 
了 这 样 的 认识 ， 就 不 会 对 “局 用 蔡 代 NameNode 要 比 启用 蔡 代 JobTracker 
的 步骤 更 为 复杂 ”感到 吃惊 。 坚 不 客气 地 说 ， 由 于 便 件 故 障 而 不 得 不 启 
用 蔡 代 NameNode， 这 可 能 是 Hadoop 和 集群 中 最 糟 料 的 情况 。 除 非 你 有 充 
分 的 准备 ， 人 否则 极 可 能 丢失 全 部 数据 。 


这 仪 是 一 个 结论 声明 ， 只 有 深入 人 研究 NameNode 的 本 质 ， 才 能 理解 为 什 
么 会 出 现 上 述 情 况 。 








2. 详解 NameNode 


目前 ， 我 们 学 到 了 NameNode 是 DataNode 进 程 之 间 的 协调 者 ， 同 时 ， 它 
还 负责 使 某 些 配置 参数 立即 生效 ， 如 数据 块 复制 因子 。 这 些 任务 都 很 重 
要 ， 但 它们 都 只 停留 在 操作 层面 。NameNode 还 负责 管理 HDFS 文 件 系统 
的 元 数据 ， 可 以 把 它 类 比 为 传统 文件 系统 中 的 文件 分 配 表 。 








3. 文件 系统 、 文 件 、 数 据 块 和 节点 


在 访问 文件 系统 时 ， 用 户 通 常 不 会 关注 数据 块 。 用 户 要 访问 的 十 文件 系 
统 中 某 个 位 置 的 特定 文件 。 为 了 便于 实现 这 个 功能 ，NameNode 进 程 需 
要 维护 许多 信息 。 
。 文件 系统 的 实际 内 容 ， 所 有 文件 的 文件 名 ， 以 及 它们 所 在 的 目录 。 
。 关于 上 述 元 素 的 元 数据 ， 比 如 文件 大 小 、 所 有 者 、 复 制 因 子 。 


。 数据 英 与 文件 之 间 的 映射 和 关系， 反映 了 哪些 数据 块 保存 的 是 哪个 文 
件 的 数据 。 

。 集群 中 市 点 与 数据 块 的 映 射 关系， 反映 了 哪些 数据 块 存储 在 哪个 节 
点 上 。 此 外 ， 基 于 上 述 映 射 关系 ，NameNode 还 记录 了 每 块 数据 的 
当前 副本 状态 。 


除 最 后 一 点 外 ， 所 有 信息 都 是 永久 数据 ， 必 须 在 NameNode 重 局 过 程 中 
维护 这 些 数据 。 


4. 集群 中 最 重要 的 数据 : fsimage 











NameNode 进 程 在 硬盘 上 保存 了 两 个 数据 结构 ， 一 个 是 fsimage 文件 ， 
另 一 个 是 edit log， 它 记录 了 fsimage 文件 的 所 有 改动 。fsimage 文件 
存储 了 上 节 提 到 的 文件 系统 的 关键 属性 ， 每 个 文件 及 目录 的 文件 名 和 详 
细 信 息 ， 以 及 每 个 文件 、 目 录 与 数据 块 之 间 的 映射 关系 。 


假如 于 了 fsimage 文件 ， 保 存 数据 块 的 证 点 束 无 法 获知 哪些 数据 块 对 应 
者 哪个 文件 的 哪 一 部 分 。 实 际 上 ， 你 其 金 部 不 知道 应 该 首先 构建 哪个 文 
件 。fsimage 文件 的 丢失 不 会 影响 文件 系统 数据 的 完整 性 ， 然 而 ， 这 些 
数据 却 变 得 坚 无 用 处 。 


NameNode 进 程 启动 时 会 读 取 fsimage 文件 。 为 了 高 效 运行 ， 这 些 数 据 
保存 在 NameNode 的 内 存 中 ， 并 在 内 存 中 完成 操作 。 为 了 防止 丢失 对 文 
件 系 统 的 更 改 ， 这 些 更 改 在 NameNode 正 常 运转 时 间 被 写 入 edit log 文 
件 。 重 新 局 动 的 时 候 ， 局 动 之 时 就 搜寻 这 个 日 志文 件 ， 并 把 它 的 内 容 更 
人 文件 中 ， 之 后 NameNode 会 把 fsimage 文件 的 内 容 读 入 内 
子 。 








提示 : 该 过程 可 通过 使 用 稍 后 将 提 到 的 SecondaryNameNode 进 行 优 
化 。 


5. DataNode 的 启动 


当 DataNode 进 程 启动 时 ， 它 开始 各 NameNode 进 程 发 送 心跳 信息 ， 报 告 
存储 在 该 节点 的 数据 块 的 状态 。 本 章 前 面 内 容 曾 解释 过 ， 当 客户 端 提 出 
对 特定 数据 块 的 读 写 请 求 时 ，NameNode 进 程 通过 上 述 方法 可 获知 由 哪 
个 节点 回 该 客户 端 提供 服务 。 如 果 重 局 了 NameNode， 它 将 与 所 有 
DataNode 进 程 重 新 建立 心跳 机 制 ， 来 构建 数据 块 与 存储 节点 的 映射 天 


pe 











DataNode 因 故障 离开 集群 ， 故 障 恢复 后 又 重新 加 入 集群 ， 导 致 数据 块 与 
节点 的 映射 天 系 无 法 长 期 保存 ， 因 为 在 目前 的 实际 情况 下 ， 保 存在 硬盘 
上 的 状态 信息 可 能 并 不 是 最 新 的 。 这 也 是 NameNode 进 程 不 留存 数据 块 
与 节点 之 间 映 射 天 系 的 原因 。 





6. 安全 模式 


如 果 用 户 在 HDFS 集 群 启动 后 不 久 即 查看 HDFS 网 页 用 户 接 口 或 

者 dfsadmin 的 输出 ， 你 会 发 现 集 群 正 处 于 安全 模式 (safe mode) ， 同 
时 也 会 看 到 集群 离开 安全 模式 需要 达到 的 数据 块 浆 值 。 这 是 数据 块 报告 
机 制 在 发 挥 作 用 。 


作为 一 种 附加 的 保护 措施 ，NameNode 进 程 会 将 HDFS 文 件 系统 保持 在 只 
读 模 式 下 ， 直 到 它 确 认 DataNode 上 报 的 数据 块 数量 达到 了 副本 阔 值 。 通 
常情 况 下 ， 只 需 所 有 DataNode 上 报 其 数据 块 状态 即 可 。 但 是 ， 如 果菜 些 
DataNode 发 生 故 障 ，NameNode 需 要 安排 重新 复制 部 分 数据 块 ， 然 后 集 
群 才 会 达到 离开 安全 模式 的 条 件 。 





7. SecondaryNameNode 


SecondaryNameNode 是 Haoop 中 命名 最 糟糕 的 实体 。 当 读者 第 一 次 学 习 
关键 的 fsimage 文件 时 ， 可 能 会 认为 这 个 名 为 SecondaryNameNode 有 助 
于 防范 故障 。 它 会 不 会 像 其 名 字 那 样 ， 是 运行 在 另 一 人 台 主 机 上 的 
NameNode 的 副本 ， 当 主 节 点 发 生 故 障 时 ， 它 会 接管 工作 ， 控 制 集群 ? 


很 遗憾 ， 答 案 是 否定 的 。 SecondaryNameNode 的 作用 很 特殊 ， 它 周期 性 
读 取 fsimage 和 editlog， 并 把 edit log 中 记录 的 对 fsimage 的 改动 应 用 
到 fsimage 文件 中 ， 输 出 一 个 经 过 更 新 的 fsimage 文件 。 该 方案 为 
NameNode 节 省 了 大 量 启动 时 间 。 一 个 已 长 时 间 运 行 的 NameNode 进 程 ， 
会 生成 一 个 巨大 的 edit log， 将 该 文件 中 的 所 有 改动 一 次 性 应 用 到 存储 在 
人 硬盘 上 的 fsimage 文件 会 花费 很 长 时 间 ， 很 容易 就 能 溪 费 掉 几 个 小 时 。 
使 用 SecondaryNameNode 可 以 帮助 NameNode 较 快 启动 。 


8. 如 何 处 理 NameNode 进 程 的 致命 故障 





显然 ， 当 NameNode 发 生 人 致命 故障 时 ， 我 们 安慰 自己 “不 要 令 乱 ”无 济 于 

事 ， 必 须要 有 解决 方法 。 有 多 种 原因 可 能 造成 NameNode 故 障 。 这 个 话 

题 太 重要 了 ， 以 至 于 我 们 在 下 一 章 专 门 用 一 节 内 容 来 讨论 它 。 但 现在 ， 

主要 的 防范 措施 就 是 配置 NameNode， 让 它 把 fsimage 和 edit log 输 出 到 
多 个 不 同位 置 。 通 音 ， 我 们 可 以 添加 一 个 网 络 文件 系统 作为 fsimage 的 
输出 位 置 ， 保 证 在 NameNode 主 机 之 外 还 存 有 一 个 fsimage 副本 。 


但 是 ， 将 NameNode 移 到 一 台新 主机 需要 手工 操作 ， 在 完成 这 些 操作 的 
过 程 中 ， 整 个 Hadoop 和 集群 完全 失效 。 你 需要 掌握 这 些 操作 。 对 了 ， 你 曾 
在 测试 环境 中 成 功 完成 过 这 些 步骤 ! 王 万 不 要 在 业务 集群 死机 ，CEO 朝 
人 ， 公 司 发 生 经 济 损失 的 时 候 才 去 学 习 如 何 将 NameNode 移 到 
新 主机 上 。 








9. BackupNode/CheckpointNode 和 NameNode HA 


0.22 版 的 Hadoop 用 BackupNode 和 CheckpointNode 这 两 个 新 组 件 来 代替 
SecondaryNameNode。 实 际 上 ，CheckpointNode 是 对 
SecondaryNameNode 的 重 命 名 ， 它 负责 在 固定 的 checkpoint 周 期 性 地 对 
fsimage 文件 进行 更 新 ， 以 减少 NameNode 的 司 动 时 间 。 


而 BackupNode 更 像 是 对 NameNode 完 整 功能 的 热 备 份 。 它 在 内 存 中 保存 
了 主 NameNode 的 同步 状态 ， 并 从 NameNode 接 收文 件 系统 的 更 新 数据 
流 ， 因 此 ， 任 何 时 刻 其 内 存 状 态 都 是 最 新 的 。 如 果 NameNode 和 死机 了 ， 
BackupNode 更 适合 当 新 NameNode。 使 用 BackupNode 作 为 新 NameNode 
的 过 程 不 是 自动 的 ， 它 需要 手工 和 干预， 重启 集群 ， 但 它 能 解决 
NameNode 故 障 市 来 的 麻烦 。 





请 记 住 ，Hadoop 1.0 是 0.20 版 本 的 延续 ， 因 此 它 不 具备 上 述 特性 。 


Hadoop 2.0 会 将 上 述 特性 扩展 ， 最 终 目标 是 实现 一 种 全 自动 的 
NameNode 故 障 恢复 机 制 ， 无 需 人 工 干预 从 主 NameNode 到 备份 
NameNode 的 迁移 过 程 。HA (High Availability) 是 最 早 提出 的 一 种 实 
现 上 述 目 标的 Hadoop 架 构 改革 方案 ， 一 旦 实现 ， 它 将 发 挥 重要 作用 。 





10. 硬件 故障 


前 几 节 ， 我 们 故意 制造 了 Hadoop 各 组 件 的 故障 。 大 多 数 情况 下 ， 我 们 是 
用 结束 Hadoop 进 程 的 方式 模拟 主机 的 物理 硬件 故障 。 根 据 经 验 ， 很 少 遇 
和 
情况 。 


11. 主机 故障 


主机 故障 是 要 考虑 的 最 简单 的 情况 。 主 机 故障 可 以 由 关键 硬件 的 问题 导 
致 ， 比 如 CPU 故障 、 电 压 过 低 、 风 扇 被 卡 住 等 。 它 会 导致 运行 在 该 主机 
的 Hadoop 进 程 突然 中 止 。 系 统 软件 的 重要 缺陷 ， 如 内 核 错误 、LIO 和 死 锁 
等 ， 也 会 造成 同样 后 果 。 


一 般 来 讲 ， 假 如 故障 导致 主机 骨 溃 、 重 启 或 其 他 情况 使 其 在 一 段 时 间 内 
和 
日 同 。 





12. 主机 错误 





更 隐蔽 的 问题 是 ， 主 机 看 上 去 运行 正常 ， 实 际 上 输出 的 是 错误 结果 。 例 
0 0 
不 。 


对 HDFS 而 言 ， 这 相当 于 我 们 之 前 讨论 的 数据 块 丢失 的 情况 。 
在 MapReduce 中 ， 没 有 等 价 机 制 。TaskTracker 和 其 他 大 多 数 软件 一 样 ， 


它 依赖 于 主机 对 数据 的 正确 读 写 ， 而 在 任务 运行 或 shuffle 阶 段 没有 相应 
的 检测 错误 数据 的 机 制 。 


13. 关联 故障 的 风险 





某 些 情况 下 ， 一 个 故障 的 起 因 也 会 造成 后 续 多 个 故障 ， 并 会 大 大 增加 数 
据 丢 失 的 风险 。 但 很 多 人 在 遭受 损失 之 前 从 未 认真 考虑 过 这 个 问题 。 


举 个 例子 ， 我 曾 使 用 由 4 台 联 网 设备 组 成 的 系统 工作 。 其 中 1 人 台 设 备 出 现 
了 故障 ， 没 人 去 关注 这 个 问题 。 毕 竟 还 有 3 人 台 设 备 可 以 正常 工作 。 直 到 
它们 在 18 小 时 内 全 部 出 现 故 障 ， 才 有 人 去 调查 。 后 来 友 现 ， 这 些 设备 使 
用 的 同一 生产 批 次 的 便 盘 存在 质量 问题 。 


问题 并 非 总 是 这 么 菲 夷 所 思 。 最 妾 见 的 情况 是 ， 共 至 服务 或 共 译 设备 出 
现 故 障 。 网 络 交 换 机 会 坏 控 ， 电 源 功 率 会 突 增 ， 空 调 会 丑 工 ， 设 备 染 会 
引起 短路 。 下 一 章 我 们 会 看 到 ，Hadoop 并 不 是 随机 分 配 数 据 块 的 存储 位 
边 ， 它 努力 实现 一 种 数据 布局 全 上 略 ， 尺 量 降低 共 至 服务 引发 故障 的 可 能 
性 以 及 故障 造成 的 损失 。 


一 般 情况 下 ， 我 们 讨论 的 上 述 情况 不 太 可 能 出 现 。 绝 大 多 数 情况 下 ， 出 
现 故障 的 主机 只 是 个 别 现象 ， 它 并 非 故 隐 危 机 的 冰山 一 角 。 但 是 ， 请 记 
和 
J 时候 。 


由 软件 造成 的 任务 失败 
如 前 所 述 ， 实 际 上 很 少 遇 到 Hadoop 进 程 自 己 骨 泪 或 其 他 组 件 自 发 失效 的 


情况 。 实 践 中 更 常见 的 是 由 任务 引发 的 故障 ， 也 就 是 正在 集群 上 执行 的 
map 或 reduce 任 务 引 发 的 故障 。 





绥 慢 运行 的 任务 引发 的 故障 
首先 看 一 下 如 果 任 务 和 暂停， 或 者 在 Hadoop 看 来 任务 停止 运行 将 会 引发 的 


后 果 


6.8 实践 环节 : 引发 任务 故障 


造成 任务 失败 。 在 开始 行动 之 前 ， 我 们 需要 修改 默认 的 超时 靖 





1. 将 下 列 配置 属性 添加 到 mapred-site.xml 文件 。 


<property> 
<name>mapred.task.timeout 


<value>30000 
</property> 


2. 我 们 现在 修改 第 3 章 中 曾 多 次 用 到 的 WordCount 例 程 。 复 
制 NordCount3.java ， 重 命名 为 NordCountTimeout.Jjava ， 并 
添加 下 列 引 用 声明 。 


import java.util.concurrent.TimeUnit ， 
import org.apache.hadoop.fs.FileSystem ， 
import org.apache.hadoop.fs.FSDataOutputStream ; 


3. 使 用 下 列 代 码 蔡 换 map 方法 。 


public void map(Object key, Text value, Context context 
) throws IOException, InterruptedException { 
String lockfile = "/user/hadoop/hdfs,.1lock" ; 
Configuration config = new Configuration() ;， 
FileSystem hdfs = FileSystem.get(config) ，; 
Path path = new Path(lockfile) ; 
If (!hdfs.exists(path)) 








{ 

byte[] bytes = "A lockfile".getBytes().，; 
FSDataOutputStream out = hdfs.create(path) ; 

out .write(bytes, 0, bytes.length); 

out.close().,，; 

TimeUnit.SECONDS.sleep(100) ，; 


String[] words = value.toString().split(" ") ; 


for (String str: words) 


word.set(str); 
context .write(word, one); 


上 





4. 修改 类 名 ， 之 后 编 详 WNordCountTimeout .java 并 打包 为 jar 文 件 ， 
在 集群 上 运行 。 


$ Hadoop jar wc.jar WordCountTimeout test.txt output 


11/12/11 19:19:51 INFO mapred.JobClient: map 50% reduce 0% 

11/12/11 19:20:25 INFO mapred.JobClient: map 0% reduce 0% 

11/12/11 19:20:27 INFO mapred.JobClient: Task Id : attempt_2011121 

11821 0004_m_ 000000 0，Status : FAILED 

Task attempt_201112111821 0004_m_ 000000 0 failed to report status for 32 seconds 
11/12/11 19:20:31 INFO mapred,JobClient : map 100% reduce 0% 

11/12/11 19:20:43 INFO mapred,JobClient : map 100% reduce 100% 

11/12/11 19:20:45 INFO mapred,JobCclient: Job complete:job_201112111821 0004 
11/12/11 19:20:45 INFO mapred,JobCclient: Counters: 18 

11/12/11 19:20:45 INFO mapred,JobCclient : Job Counters 











原理 分 析 


首先 ， 我 们 修改 了 Hadoop 的 默认 超时 属性 。 如 果 任 务 在 这 段 时 间 里 处 于 
静默 状态 ， 那 么 这 段 时 间 结 束 后 ，Hadoop 框 架 会 强制 结束 该 任务 。 


接着 ， 我 们 对 WordCount3 进 行 修 改 ， 加 入 一 些 代码 让 该 任务 休眠 100 
秒 。 程 序 中 用 到 了 HDFS 上 的 文件 锁 ， 以 确保 只 有 一 个 任务 实例 处 于 体 
眠 状态 。 如 果 我 们 只 在 map 操 作 中 加 入 休眠 声明 而 不 加 上 文件 锁 ， 每 个 
mapper 都 会 超时 最 终 导致 作业 失败 。 


一 展 身 手 : 编写 代码 访问 HDFS 


我 们 讲 过 ， 本 书 不 会 介绍 如 何 编写 程序 访问 HDFS。 然 而 ， 注 意 一 下 上 
例 中 的 代码 ， 并 在 Java 文 档 中 查阅 用 到 的 这 些 类 。 你 会 发 现 ， 很 大 程度 
上 ， 这 些 接口 与 访问 标准 Java 文 件 系 统 的 模式 类 似 。 


然后 我 们 编译 源 代 码 ， 打 包 类 文件 并 在 集群 上 执行 作业 。 第 一 个 任务 进 
入 休眠 状态 ， 在 超过 设置 的 超时 闪 值 (该 值 以 毫秒 为 单位 ) 之 后 ， 

站 ad600 半 半 设 任 入 并 重新 安排 男 一 个 mapper 处 理 该 任务 负责 处 理 的 
split。 





1. Hadoop 对 运行 绥 慢 的 任务 的 处 理 方式 


面 对 运 行 缓慢 的 任务 ，Hadoop 有 一 人 全民 六， 它 要 强制 结束 那些 卡 住 
的 任务 ， 或 者 由 于 其 :他 原因 运行 非 党 缓慢 的 任务 。 但 有 些 时候 ， 复 杂 任 
务 通 常 需要 花费 较 长 时 间 。 尤 其 是 依赖 其 他 外 部 资源 完成 自身 运行 的 任 
务 ， 往 往 需要 较 长 的 运行 时 间 。 








Hadoop 从 任务 进度 中 寻找 线索 ， 以 推 基 其 处 于 空 亲 状态 、 静 默 状态 或 卡 
住 状态 的 时 间 。 通 季 来 讲 ， 线 索 来 源 包 括 : 


. 输出 结果 ; 
。 问 计数 器 写 入 数值 ; 
。 明确 地 报告 进度 。 


对 于 后 者 ，Hadoop 提 供 了 Progressable 接口 ， 该 接口 包含 一 个 有 趣 的 
方法 。 


Public void progress(); 


Context 类 实现 了 Progressable 接口 ， 因 此 任意 mapper 或 者 reducer 都 
可 以 调用 context.progress() 报告 作业 执行 的 进度 。 





2. 预测 执行 


通常 ， 一 个 MapReduce 作 业 包 括 多 个 离散 的 map 和 reduce 任 务 。 在 集群 
上 运行 作业 时 ， 由 于 某 台 主 机 配置 错误 或 者 发 生 故障 导致 该 主机 运行 的 
任务 明显 落后 于 其 他 任务 的 风险 确实 存在 。 


为 了 解决 这 一 问题 ，Hadoop 会 在 map 或 reduce 阶 段 即 将 结束 之 际 ， 在 集 

群 中 的 多 台 主 机 上 运行 相同 的 map 或 reduce 任 务 。 预 测 任 务 执行 的 目的 

和 防止 因 一 两 个 运行 缓慢 的 任务 对 整个 作业 的 运行 时 间 产 生 重大 影 
Ds] 。 








3. Hadoop 对 失败 任务 的 处 理 方法 





运行 失败 的 任务 并 非 总 是 以 暂 集 运行 的 形式 存在 。 有 时 它们 会 明确 地 抛 
出 异常 、 中 止 运行 或 以 其 他 有 声 方式 停止 运行 。 


Hadoop 的 3 个 配置 属性 决定 了 应 对 任务 故障 的 方式 ， 它 们 都 是 
在 mapred-site.xml 文件 中 进行 设置 。 





。mapred.map .max.attempts : 在 引起 作业 失败 之 前 ， 每 个 map 作 
业 的 最 大 重 试 次 数 。 


。mapred.reduce.max.attempts : 在 引起 作业 失败 之 前 ， 每 个 
reduce 作 籽 的 最 大 重 试 次 数 。 


。mapred.max.tracker.failures : 如 果 失 败 的 任务 数 超过 该 值 ， 
整个 作业 失败 。 


上 述 属 性 的 默认 值 都 是 4. 


提示 :， 请 注意 ， 如 果 mapred.tracker.max.failures 的 值 小 于 其 
他 两 个 属性 中 的 任何 一 个 ， 该 设置 都 不 会 生效 。 


配置 这 些 属性 中 的 哪 一 个 ， 取 决 于 数据 和 作业 的 性 质 。 如 有 果 作业 要 访 
问 的 外 部 资源 可 能 经 常 出 现 暂 时 错误 ， 最 好 增 大 任务 的 重 试 次 数 。 但 
如 果 任 务 处 理 的 是 特定 数据 ， 这 些 属性 可 能 都 不 太 适 用 ， 因 为 失败 过 
一 次 的 任务 依然 还 会 失败 。 无 论 如 何 ， 大 于 1 的 默认 值 是 有 意义 的 ， 
因为 在 大 型 复杂 系统 中 ， 总 会 出 现 各 种 短暂 故障 。 





一 展 身 手 : 引发 任务 失败 








再 次 修改 WordCount 程 序 。 这 次 不 是 让 任务 休眠 ， 而 是 基于 随机 数 抛 出 
RuntimeException。 修 改 集群 配置 并 研究 多 少 个 失败 的 任务 会 导致 整个 
作业 失败 。 


6.9 ”数据 原因 造成 的 任务 故障 


我 们 将 要 讨论 的 最 后 一 类 故障 是 由 数据 引发 的 。 在 这 里 ， 我 们 指 的 是 由 
包含 错误 数据 的 记录 导致 的 任务 故障 ， 可 能 是 因为 数据 类 型 或 者 格式 错 
误 ， 也 可 能 是 其 他 种 种 相关 问题 。 这 些 情 况 下 ， 任 务 接收 的 数据 往往 背 
离 了 我 们 的 预期 。 








1. 通过 编写 代码 处 理 异 常数 据 


处 理 异常 数据 的 一 种 方法 是 ， 在 mapper 和 reducer 中 实现 防范 异常 数据 的 
机 制 。 例 如 ， 假 如 mapper 接 收 的 数据 应 该 是 一 系列 以 逗号 分 隔 的 值 ， 那 
么 在 处 理 数据 之 前 首先 验证 数据 数目 是 否 正 确 。 如 果 第 一 个 值 应 该 是 一 
个 整数 的 字符 串 表 示 ， 确 保 字 符 串 同 数 字 类 型 的 转换 有 可 靠 的 错误 处 理 
机 制 和 默认 行为 。 


这 种 方法 的 问题 是 ， 无 论 你 有 多 细心 ， 总 会 有 一 些 怪异 的 输入 数据 类 型 
没有 考虑 到 。 你 是 否 考虑 接收 不 同 anicode 字 符 集 的 值 y 遇 到 多 个 字符 
集 、 空 值 、 错 误 结 尾 的 字符 申 、 错 误 编码 的 转 义 字符 等 情况 ， 该 怎么 办 
呢 ? 


如 果 作 业 的 输入 数据 是 由 用 户 生成 的 ， 或 者 受用 户 控制 ， 可 以 较 少 关注 


这 些 可 能 性 。 然 而 ， 如 果 用 户 处 理 的 数据 来 目 外 部 数据 源 ， 就 会 及 生 一 
些 意 想 不 到 的 情况 。 








2. 使 用 Hadoop 的 skip 模 式 


另 一 种 方法 是 配置 Hadoop， 让 它 以 其 他 方式 处 理 任务 故障 。 与 将 任务 故 
障 视 为 原子 事件 不 同 ，Hadoop 试 图 识别 出 引发 问题 的 数据 ， 并 在 将 来 的 
任务 执行 中 跳 过 这 些 数据 。 这 种 机 制 被 称 为 skip 模 式 。 假 如 你 过 到 各 种 
各 样 的 数据 问题 ， 而 又 不 想 编码 解决 这 些 问题 或 者 编码 解决 这 些 问题 是 
不 切实 际 的 ， 这 个 时 候 束 用 到 skip 模 式 了 。 叉 或 者 ， 你 的 作业 使 用 了 第 
三 方 库 ， 而 叉 没 有 这 些 库 的 源 代码 ， 可 能 只 能 使 用 skip 模 式 来 解决 数据 


问题 了 。 


出 于 其 他 考虑 ，skip 模 式 目前 仅 适 用 于 0.20 之 前 版 本 的 API 纺 写 的 作业 。 








6.10 ”实践 坏 市 :使 用 skip 模 式 处 理 卉 常数 据 


我 们 通过 实际 编写 一 个 MapReduce 作 业 来 学 习 skip 模 式 ， 该 作业 接收 的 
数据 会 导致 其 运行 失败 。 


1. 将 下 列 Ruby 脚 本 保存 为 gendata.rb 文件 。 


File.open("skipdata.txt", "w") do |filel 
3.times do 
500000.times{file.write("A valid record\n")} 


5.times{file.write("skiptext\n")} 
end 
500000.times{file.write("A valid record\n")} 
End 


2. 运行 脚本 。 
3. 检查 生成 文件 的 大 小 及 其 行 数 。 
$ 1s -lh skipdata.txt 
-rw-rw-r-- 1 hadoop hadoop 29M 2011-12-17 01:53 skipdata.txt 


~$ cat skipdata.txt | wc -1 
2000015 


4. 将 生成 的 skipdata.txt 数据 拷贝 到 HDFS。 


5. 在 mapred-site.xml 文件 中 添加 下 列 属性 。 


<property> 
<name>mapred.skip.map.max.skip.records 
<value5</value> 

</property> 


6. 检查 mapred.max.map.task.failures 的 值 ， 如 果 该 值 小 于 20 的 
话 ， 将 其 设 为 20。 
7. 将 下 列 Java 代 码 保存 为 SkipData.java 文件 。 














import java.io.IOException,; 


import org.apache.hadoop.conf.* ， 
import org.apache.hadoop.fs.Path,; 
import org.apache.hadoop.io.* ， 

import org.apache.hadoop.mapred.* ， 
import org.apache.hadoop.mapred.1ib.* ， 


* 


public class SkipData 
{ 


public static class MapClass extends MapReduceBase 
implements Mapper 


{ 
private final static Longwritable one = new Longwritable(1); 
private Text word = new Text("totalcount"); 
public void map(Longwritable key, Text value, 
OutputCollector output, 
Reporter reporter) throws IOException 
{ 
String line = value.toString(); 
if (line.equals("skiptext")) 
throw new RuntimeException("Found skiptext") ; 
output.collect (word, one); 
} 
} 
public static void main(String[] args) throws Exception 
{ 


Configuration config = new Configuration() ，; 
JobConf conf = new JobConf(config, SkipData.class); 
conf,setJobName("SkipData"); 


conf ,SetOutputKeyClass(Text,class) ， 
conf ,SetoutputValueClass(Longwritable.class ) ; 


conf ,SetMapperClass(MapClass.class ) ; 
conf ,SetCombjinerClass(LongSumReducer ,class ) ， 
conf ,setReducerCJlass(LongSumReducer ,class ) ; 


FileInputFormat.setIinputPaths(conf,args[0]) ， 
FileOutputFormat.setOutputPath(conf, newpPath(args[1])); 


JobClient.runJob(conf); 





8. 编译 该 文件 ， 并 将 其 打包 为 skipdata.jar。 
9. 运行 作业 。 





$ hadoop jar skip.jar SkipData Skipdata.txt output 


11/12/16 17:59:07 INFO mapred.JobClient: map 45% reduce 8% 
11/12/16 17:59:08 INFO mapred.JobClient: Task Id : attempt_2011121 
61623_0014_m_ 000003_0, Status : FAILED 

java.lang.RuntimeException: Found skiptext 

at SkipData$MapClass.map(SkipData.java:26) 

at SkipData$MapClass.map(SkipData.java:12) 

at org.apache.hadoop ,mapred.MapRunner ,run(MapRunner .java:50) 

at org.apache.hadoop ,mapred.MapTask,.run0ldMapper(MapTask，Jjava:358 ) 
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:307) 

at org.apache.hadoop.mapred.child.main(Child.java:170) 





11/12/16 17:59:11 INFO mapred,JobCclient : map 42% reduce 8% 


11/12/16 18:01:26 INFO mapred.JobClient: map 70% reduce 16% 


11/12/16 18:01:35 INFO mapred.JobClient: 
11/12/16 18:01:43 INFO mapred.JobClient: Task Id 
61623_0014_m 000003_2, Status 





map 71% reduce 16% 


attempt_2011111 
FAILED 


java.lang.RuntimeException: Found Skiptext 


11/12/16 18:12:44 INFO 
11/12/16 18:12:50 INFO 


11/12/16 18:13:00 INFO 
11/12/16 18:13:02 INFO 
job_201112161623_0014 


mapred. JobClient: 
mapred,JobCclient : 


mapred,JobCclient : 
mapred. JobClient: 


map 99% reduce 29% 
map 100% reduce 29% 


map 100% reduce 100% 
Job complete: 





10. 检查 作业 输出 文件 的 内 容 。 


$ hadoop fs -cat output/part-00000 
totalcount 


2000000 


11. 在 输出 路 径 中 查看 跳 过 的 数据 。 


$ hadoop fs -ls output/_logs/skip 
Found 15 items 


-rw-r--r-- 


-rw-r--r-- 


3 hadoop supergroup 
3 hadoop supergroup 


203 2011-12-16 18:05 /user/hadoop/output/_11d 
211 2011-12-16 18:06 /user/hadoop/output/_11d 





12. 通过 MapReduce UI 查看 作业 详情 ， 观 察 统 计数 据 ， 如 下 图 所 示 。 
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上 例 中 ， 我 们 完成 了 许多 设置 ， 现 在 将 对 其 进行 逐条 解释 。 


首先 ， 我 们 需要 对 Hadoop 进 行 配置 ， 开 局 Skip 模式 ， 默 认 情 况 下 ， 该 模 
式 处 于 关闭 状态 。 关 键 是 将 mapred.skip.map.max.skip.records 的 值 设 置 

为 5 ， 这 就 是 说 ， 我 们 指令 Hadoop 框 架 跳 过 小 于 5 条 记录 的 数据 集 。 请 
注意 ， 这 个 值 包 括 无 效 记 录 的 数量 ， 如 果 将 该 属性 的 值 设 为 8 (默认 设 
置 ) ，Hadoop 束 不 会 进入 skip 模 式 。 


我 们 也 检查 mapred.max.map.task.failures 的 值 ， 确 保 作业 会 重 试 足够 多 
次 ， 具 体 原因 稍 后 解释 。 


接 下 来 ， 我 们 需要 使 用 一 个 测试 文件 模拟 异常 数据 。 我 们 编写 了 一 个 简 
单 的 Ruby 脚 本 生成 一 个 文件 ， 访 文件 包含 2 000 000 行 有 效 数 据 ， 以 及 分 
散在 文件 中 的 3 组 无 效 数据 ， 每 组 包括 5 条 无 效 记 录 。 我 们 运行 该 脚本 ， 
并 确认 生成 的 文件 确实 包括 2 000 015 行 。 然 后 ， 将 该 文件 放 到 HDFS 
es 











随后 ， 我 们 编写 一 个 简单 的 MapReduce 作 业 统 计 有 效 记 录 数 量 。 作 业 每 
次 从 输入 文件 读 取 一 行 ， 如 果 该 行为 有 效 记 录 ， 输 出 值 1， 最 终 这 些 输 
和 当 遇 到 无 效 数 据 行 时 ，mapper 抛 出 一 个 异常 
洗 失 败 。 


接 下 来 编译 上 述 作 业 源 代码 ， 打 包 为 jar 文 件 ， 并 运行 作业 。 一 段 时 间 

后 ， 作 业 运 行 结束 。 从 作业 状态 摘要 中 可 以 看 出 ， 我 们 从 未 见 过 这 种 运 
行 模式 。 随 着 map 任 务 的 运行 ，map 进 度 计数 器 的 值 不 断 增 大 ， 但 当 任 
务 失 败 时 ，map 任 务 进度 后 退 然 后 再 次 增 大 。 这 束 是 skip 模 式 。 


每 当 mapper 接 收 到 键 值 对 时 ，Hadoop 默 认 增 加 计数 右 的 值 ， 这 样 就 会 记 
录 哪 条 数据 引发 了 故障 。 


技巧 : 如 果 map 或 reduce 任 务 并 非 直 接 通 过 map 或 reduce 方 法 的 参数 来 
接收 输入 数据 ，《 例 如 ， 从 异步 进程 或 缓存 中 接收 数据 ) 你 就 需要 手 
动 更 新 此 计数 占 。 


任务 失败 时 ，Hadoop 在 相同 数据 块 上 重 试 ， 但 只 试图 解决 无 效 的 记录 。 
通过 二 分 搜索 方法 ，Hadoop 框 以 在 数据 上 重 试 ， 直 到 跳 过 的 记录 数 小 于 
我 们 之 前 设置 的 最 大 值 〈 本 例 中 该 值 为 5;〉。 因 为 Hadoop 框 染 要 找 的 是 
跳 过 记录 的 最 佳 值 ， 因 此 这 个 过 程 会 导致 多 次 任务 重 试 和 失败 ， 这 也 是 














我 们 需要 将 任务 重 试 次 数 设置 为 略 大 于 通 种 值 的 原因 。 


我 们 等 待 作业 持续 进行 这 种 往复 处 理 ， 完 毕 后 查看 输出 文件 的 内 容 。 该 
文件 包含 2 000 000 条 已 处 理 记录 ， 正 是 输入 文件 中 的 有 效 记 录 数 。 
Hadoop 成 功 地 跳 过 了 3 组 无 效 记 录 。 


接着 ,我 们 检查 作业 输出 路 径 下 的 _logs 目录 ， 发 现 该 目录 下 有 一 个 
skip 目 录 ， 人 存放 痢 被 跳 过 记录 组 成 的 序列 文件 。 


最 后 ， 通 过 MapReduce 网 页 用 户 接口 查看 整个 作业 的 状态 ， 既 包括 在 

skip 模 式 下 处 理 的 记录 数 ， 也 包括 跳 过 的 记录 数 。 请 注意 ， 失 败 的 任务 
总 数 为 22。 但 这 个 数字 是 多 个 任务 失败 次 数 的 总 和 ， 因 此 即使 大 于 我 们 
设置 的 map 任 务 重 试 次 数 也 是 合理 的 。 




















是 否 开 局 skip 模 式 


skip 模 式 可 有 效 解决 错误 数据 带 来 的 问题 。 但 正如 我 们 刚才 看 到 的 ， 因 
为 Hadoop 需 要 确定 跳 过 哪些 范围 内 的 数据 ， 这 就 带 来 了 性 能 损失 。 在 我 
们 的 测试 文件 中 ， 无 效 记 录 刚 好 被 分 为 3 组 ， 它 们 只 占 全 部 数据 集 的 很 
小 一 部 分 ， 利 于 Hadoop 在 skip 模 式 下 运行 。 但 如 果 输 入 数据 包含 许多 无 
效 记录 ， 并 且 它 们 散布 于 文件 中 ， 更 有 效 的 办 法 可 能 是 使 用 预 处 理 
Mapreduce 作 业 滤 挥 所 有 的 无 效 记 录 。 


这 也 是 我 们 在 介绍 了 编写 代码 处 理 错误 数据 的 方法 之 后 ， 紧 接着 就 介绍 
skip 模 式 的 原因 。 它 们 都 是 你 应 当 和 掌握 的 有 效 技术 。 不 存在 什么 情况 下 
哪 种 方法 更 好 的 问题 ， 读 者 需要 综合 考虑 输入 数据 、 性 能 需求 以 及 是 否 
具备 编写 处 理 代码 的 条 件 等 因 系 ， 然 后 决定 采用 哪 种 区 法 。 














6.11 小 结 


本 章 中 ， 我 们 人 为 制造 了 许多 破坏 。 和 希望 你 永远 不 会 在 同一 天 遇 到 如 此 
多 Hadoop 集 群 故 障 。 通 过 学 习 处 理 这 些 故障 ， 你 会 掌握 一 些 关 键 技术 。 


通常 ， 不 必 害 怕 Hadoop 的 组 件 发 生 故 障 。 励 其 是 在 大 规模 集群 中 ， 一 些 
组 件 或 主机 发 生 故 隐 是 司空 见 惯 的 事 ，Hadoop 在 设计 之 初 就 考虑 到 了 这 
种 情况 并 提出 了 相应 的 处 理 方法 。HDEFS 不 仅 负责 存储 数据 ， 还 管理 着 
I 
J 副本。 


MapReduce 作 业 是 无 状态 的 。 如 果 某 个 TaskTracker 执 行 的 任务 发 生 故 
障 ， 通 党 只 需 在 另外 的 节点 上 重新 执行 相同 任务 。 这 个 方法 也 可 用 于 防 
止 发 生 故 障 的 主机 拖 慢 整个 作业 的 进度 。 


HDFS 和 MapReduce 主 节点 的 故障 更 为 严重 。 特 别 是 ，NameNode 进 程 保 
存 着 文件 系统 的 关键 数据 ， 必 须 保 证 在 它 发 生 故 障 时 有 一 个 新 
NameNode 进 程 接班 。 


通常 来 说 ， 人 硬件 故障 看 上 去 与 前 面 所 说 的 故障 比较 接近 ， 但 要 留意 发 生 
关联 故障 的 可 能 性 。 如 果 软 件 错 误导 致 任务 故障 ，Hadoop 会 按照 设置 限 
a 
它 会 带 来 性 能 损失 。 


现在 我 们 已 学 习 了 如 何 处 理 集 群 故障 ， 下 一 草 我 们 将 介绍 集群 设置 、 健 
康 状况 和 集群 维护 方面 可 能 直到 的 问题 。 














第 7 章 “系统 运行 与 维护 

我 们 不 能 光 是 在 Hadoop 集 群 上 运行 写 好 的 程序 进行 智能 数据 分 析 ， 同 
时 也 得 负责 维护 集群 ， 做 好 数据 处 理 的 准备 工作 。 
本 章 包 括 以 下 内 容 : 

。 讨论 更 多 的 Hadoop 配 置 属性 ; 

。 如 何 挑选 集群 硬件 ; 

Hadoop 安 全 机 制 的 工作 原理 ; 


管理 NameNode; 





。 管理 HDFS; 

。 管理 MapReduce; 

。 扩展 集群 规模 。 
尽管 对 上 述 话题 的 讨论 都 只 停留 在 操作 层面 ， 但 是 我 们 依然 可 以 通过 学 


习 这 些 内 容 ， 研究 一些 从 未 尝试 的 Hadoop 功 能 。 因 此 ， 即 使 读者 并 不 需 
要 杀 目 管理 集群 ， 这 些 信 息 也 是 有 用 的 。 


7.1 关于 EMR 的 说 明 


使 用 Amazon Web Services 之 类 的 云 服务 的 好 处 之 一 是 ， 云 服务 提供 者 负 
责 大 部 分 系统 维护 工作 。 弹 性 MapReduce 既 可 以 创建 执行 单个 任务 的 
Hadoop 和 集群 ( 非 永久 作业 流 ) ， 也 可 以 创建 长 期 运行 的 执行 多 个 作业 的 
集群 (永久 作业 流 ) 。 当 使 用 非 永 久 作业 流 时 ， 在 很 大 程度 上 ， 底 层 
Hadoop 集 群 的 配置 和 运行 方式 对 用 户 是 不 可 见 的 。 因 此 ， 使 用 非 永 久 作 
业 流 的 用 户 不 需要 考虑 本 章 的 很 多 话题 。 如 果 用 户 使 用 EMR 执 行 永久 作 
业 流 ， 那 么 就 和 本 章 的 多 个 话题 (并 非 全 部 话题 相关。 


一 般 来 讲 ， 本 章 讨 论 的 是 本 地 Hadoop 集 群 。 如 果 用 户 需 要 重新 配置 永久 
作业 流 ， 按 照 第 3 章 的 内 容 设 置 相 同 的 Hadoop 属 性 即 可 。 





7.2 Hadoop 配 置 属性 


在 运行 集群 之 前 ， 我 们 来 讨论 一 下 Hadoop 的 配置 属性 。 一 直 以 来 ， 我 们 
介绍 了 很 多 Hadoop 的 配置 属性 ， 但 还 有 一 些 其 他 内 容 值得 深入 思考 。 


默认 值 


让 Hadoop 新 用 户 感 到 最 为 困惑 的 束 是 配置 属性 太 多 。 它 们 包含 在 哪个 文 
件 里 面 ? 它们 是 什么 意思 ? 它们 的 默认 值 是 什么 ? 


如 果 你 使 用 的 是 Hadoop 的 完整 版 本 ， 或 者 说 不 仅仅 是 二 进 制 版 本 ， 下 面 
这 些 XML 文 件 会 回答 你 的 问题 。 











e Hadoop/src/core/core-default .xml 
e Hadoop/src/hdfs/hdfs-default .xml 


e Hadoop/src/mapred/mapred-default.xml 


7.3 实践 环节 : 浏 贤 默 认 属 性 


幸运 的 是 ，XML 文 档 不 是 查看 这 些 默 认 值 的 唯一 选择 ， 我 们 还 可 以 选 
ee 下 面 我 们 将 快速 浏览 HTML 版 的 默认 配 


Hadoop 二 进 制版 中 不 包含 这 些 HTML 文 件 。 如 果 读 者 使 用 的 正 是 二 进 制 
版 的 Hadoop 安 装 包 ， 也 可 以 在 Hadoop 网 站 上 找到 这 些 文件 。 


1. 使 用 浏览 器 打开 Hadoop 安 装 路 径 下 的 docs/core-defau1lt.htm1l 
文件 ， 并 浏览 其 内 容 。 相 应 的 页 面 如 下 图 所 示 。 
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1. 通过 类 似 方法 浏览 其 他 两 个 文件 。 


Hadoop/docs/hdfs-default.html 


Hadoop/docs/mapred-default.html 





原理 分 析 

如 你 所 见 ， 每 个 属性 都 包含 名 称 、 默 认 值 及 简要 描述 。 还 会 看 到 ， 确 实 
有 很 多 配置 属性 。 现 在 别 想 着 能 理解 所 有 属性 的 含义 ， 但 要 花 点 时 间 了 
解 Hadoop 文 持 的 自 定 义 类 型 。 

7.3.1 附加 的 属性 元 素 


是 ， 我 们 设置 配置 文件 中 的 属性 时 用 到 了 XML 元 系 ， 它 们 的 格式 如 
下 所 示 。 











<property> 
<name>the.property.name</name> 
<value>The property value</value> 
</property> 





我 们 可 以 增加 两 个 可 选 的 XML 元 素 ， 它 们 是 description 和 final 。 
使 用 了 上 述 两 个 附加 元 素 的 完整 属性 应 如 下 所 示 。 
<property> 


<name>the.property.name</name> 
<value>The default property value</value> 





<description>A textual description of the property</description> 
<final>Boolean</final> 


</property> 








description 元 素 很 明显 ， 无 需 太 多 解释 ， 使 用 它 可 以 为 HTML 文 件 中 的 
每 个 属性 提供 描述 性 文本 。 


final 元 素 的 含义 与 它 在 Java 中 的 含义 类 似 : 用 户 无 法 使 用 其 他 文件 中 

各 定 的 属性 值 改 写 包 含 final 元 素 的 属性 的 值 ， 也 没有 其 他 方法 可 以 恬 
盖 该 属性 。 稍 后 我 们 会 看 到 这 样 的 例子 。 在 关系 到 集群 性 能 、 完 整 性 、 
安全 性 或 由 于 其 他 原因 ， 用 户 和 希望 在 整个 集群 中 使 用 同一 个 属性 值 的 情 
况 下 ， 可 以 在 这 些 属性 中 使 用 final 元 素 。 


7.3.2 ”默认 存储 位 置 


用 户 可 以 通过 配置 存储 位 置 这 一 属性 ， 改 变 Hadoop 在 本 地 硬盘 和 HDFS 
上 的 数据 存储 位 置 。hadoop .tmp.dir 是 其 他 属性 的 基础 ， 它 是 所 有 
Hadoop 文 件 的 根 目录 ， 其 默认 值 为 /tmp 。 


遗憾 的 是 ， 包 括 Ubuntu 在 内 的 许多 Linux 版 本 在 每 次 重启 时 都 会 清空 该 
目录 的 内 容 。 这 就 意味 着 ， 如 果 用 户 不 修改 这 个 属性 的 值 ， 束 会 在 下 次 
重启 时 丢失 所 有 HDFS 数 据 。 因 此 ， 有 必要 像 下 面 这 样 改写 core- 
site.xml 文件 中 的 hadoop .tmp.dir 属性 的 值 。 








<property> 
<name>hadoop.tmp.dir</name> 
<value>/var/l1ib/hadoop</value> 
</property> 








别 蕊 了 ， 要 确 你 Hadoop 用 户 对 该 位 置 具有 写 入 权限 。 同 时 ， 该 目录 所 在 
的 硬盘 有 充足 空间 。 稍 后 你 会 看 到 ， 有 许多 其 他 属性 可 以 更 细 粒 上 度 地 控 
制 特定 类 型 数据 的 存储 位 置 。 


7.3.3 ”设置 Hadoop 属 性 的 几 种 方式 


刚才 ， 我 们 使 用 了 配置 文件 对 Hadoop 的 属性 值 进行 设置 。 这 是 一 种 设置 
Hadoop 配 置 属性 的 有 效 途径 ， 但 如 果 我 们 想 试 痢 找 出 茶 个 属性 的 最 佳 

i 时 候 设置 特殊 值 ， 这 种 方法 就 显得 有 点 
珊 。 


我 们 可 以 使 用 JobConf 类 编写 程序 为 正在 运行 的 作业 设置 配置 属性 。 访 
类 文 持 两 种 函数 : 一 类 函数 用 于 设置 某 个 特定 属性 的 值 ， 比 如 我 们 曾 看 
到 的 设置 作业 名 称 、 输 入 输出 格式 及 其 他 属性 的 值 。 另 一 种 函数 用 来 设 
置 作业 的 map 和 reduce 任 务 数 等 。 


此 外 ， 还 有 一 些 通用 方法 ， 如 下 所 示 。 











e。 Void set(String key, String value); 


。 Void setIfUnset(String key, String value ) ; 
e Void setBoolean( String key，Boolean value); 
。 Void setInt(String key, int value ) ; 


这 些 函 数 的 使 用 更 为 灵活 ， 用 户 无 需 为 每 个 要 修改 的 属性 都 创建 一 个 专 
用 方法 。 然 而 ， 这 些 函 数 都 缺少 编译 时 检查 机 制 。 这 就 意味 着 ， 如 采 使 
用 一 个 无 效 的 属性 名 或 为 某 个 属性 指定 了 错误 类 型 ， 可 能 直到 函数 运行 
时 才 会 发 现 这 些 问题 。 


提示 : 用 户 既 可 以 编写 程序 来 设置 属性 值 ， 也 可 以 在 配置 文件 中 设 
置 属性 值 。 这 就 是 为 配置 属性 设计 final 元 素 的 一 个 重要 原因 。 假 如 
用 户 不 希望 某 些 属性 的 值 被 提交 的 MapReduce 作 业 履 盖 ， 就 需要 在 主 
配置 文件 中 为 这 些 属性 添加 final 元 素 。 




















7.4 集群 设置 
在 学 习 如 何 维护 集群 ， 使 其 保持 运转 之 前 ， 我 们 需要 首先 研究 如 何 设置 


7.4.1 为 集群 配备 多 少 台 主机 


在 考虑 Hadoop 新 集群 时 ， 第 一 个 问题 就 是 首次 为 该 集群 配备 多 少 台 主 
机 。 我 们 知道 ， 随 着 业务 所 需 计算 能 力 的 增长 ， 可 以 在 集群 中 新 增 市 
所 ， Ce 免得 马上 就 需要 增加 


这 个 问题 还 真是 没有 明确 的 答案 ， 它 在 很 大 程度 上 依赖 于 要 处 理 的 数据 
集 规模 和 要 执行 的 作业 的 复杂 程度 。 我 们 只 能 近似 地 说 ， 节 点 数 至 少 要 
与 复制 因子 n 持平 。 请 记 住 ， 市 扣 是 会 发 生 故 障 的 ， 如 果 集 群 中 的 节点 
数 等 于 复制 因子 ， 那 么 任意 一 个 节点 故障 都 会 造成 数据 块 的 副本 数 低 于 
复制 因 了 于 。 在 大 部 分 由 数 十 个 或 数 百 个 节点 组 成 的 集群 中 ， 这 个 问题 不 
足 为 虑 。 但 在 很 小 的 集群 中 ， 如 果 复 制 因 于 是 3， 最 安全 的 方案 是 用 5 人 台 
主机 构建 集群 。 














1. 计算 市 点 的 可 用 空间 


确定 集群 所 需 节点 的 直观 方法 是 ， 评 估 要 用 该 集群 处 理 的 数据 集 的 规 
模 。 如 果 要 处 理 10 TB 数据 ， 并 且 主机 硬盘 空间 为 2 TB， 结 论 就 是 至 少 


需要 5 人 台 主 机 。 


这 是 不 对 的 ， 因 为 它 没 有 把 复制 因子 和 临时 空间 的 因素 考虑 进去 。 回 想 
一 下 ，mapper 的 输出 被 写 到 本 地 人 硬盘， 再 被 reducer 读 取 。 我 们 需要 把 这 
个 较 大 的 硬盘 使 用 率 考 虑 进去 。 


一 种 好 的 做 法 是 ， 假 设 复制 因子 为 3， 同 时 临时 空间 要 占用 25% 的 硬盘 
原始 空间 。 基 于 上 述 假设 ， 要 在 主机 便 盘 空间 为 2 TB 的 集群 上 处 理 10 
TB 数据 ， 所 需 主机 数 的 计算 方法 如 下 。 


。 用 主机 存储 空间 总 量 除 以 复制 因子 。 
2 TB/3 = 666 GB 








。 在 此 基础 上 减 去 25% 的 临时 数据 存储 空间 。 666 GB * 0.75 = 500 GB 


。 因此 ， 每 个 硬盘 存储 空间 为 2 TB 的 节点 只 有 大 约 500 GB (0.5 TB) 
的 可 用 空间 。 


。 数据 集 规模 除 以 该 值 ， 结 果 即 为 所 需 的 节点 数 。 
10 TB / 500 GB = 20 


所 以 处 理 10 TB 数据 的 集群 最 少 需要 20 个 节点 ， 它 是 我 们 初步 估算 值 
94 倍 。 


所 需 市 点 数 多 于 预期 ， 这 种 情况 很 普 裔 。 在 考虑 主机 规格 的 时 候 要 记 住 
这 个 前 提 ， 本 章 “ 便 件 选 型 "会 讲 到 这 个 问题 。 





2. 主 节 反 的 位 置 


下 一 个 问题 是 ， 在 哪 台 主 机 上 运行 NameNode、JobTracker 和 
SecondaryNameNode。 我 们 曾 看 到 过 ，DataNode 可 以 与 NameNode 运 行 
在 同一 台 主 机 上 ，TaskTracker 也 可 以 和 JobTracker 共 同 运行 在 一 台 主 机 
上 ， 但 这 并 不 是 产品 集群 的 主流 设置 。 


我 们 将 看 到 ，NameNode 和 SecondaryNameNode 有 一 些 特殊 的 资源 需 
求 ， 所 有 可 能 影响 这 两 个 主 节 点 性 能 的 因素 都 可 能 拖 慢 整个 集群 的 运算 
性 能 。 


最 理想 的 情况 是 ， 在 专用 主机 上 运行 NameNode、JobTracker 和 
SecondaryNameNode。 人 然而， 在 规模 很 小 的 集群 中 ， 这 将 明显 增加 硬件 
成 本 ， 却 不 一 定 能 够 从 中 充分 受益 。 


如 果 可 能 的 话 ， 首 先 应 当 在 一 台 专 用 主机 上 运行 NameNode、JobTracker 
和 SecondaryNameNode， 不 要 在 这 人 台 专 用 主机 上 再 运行 任何 DataNode 或 
者 TaskTracker 进 程 。 随 着 集群 规模 增长 ， 可 以 在 集群 中 新 增 一 侣 服务器 
主机 ， 并 把 NameNode 迁 移 到 该 主机 ， 让 JobTracker 和 
SecondaryNameNode 运 行 在 同一 台 主 机 上 。 最 后 ， 随 着 集群 规模 的 进 一 
步 增长 ， 有 必要 再 把 JobTracker 和 SecondaryNameNode 分 开 ， 分别 在 单 
独 的 主机 上 运行 。 


提示 : ”就 像 在 第 6 章 中 所 讨论 的 ，Hadoop 2.0 会 把 Secondary 











NameNode 分 为 Backup NameNode 和 Checkpoint NameNode。 最 好 分 别 
在 不 同 的 专用 主机 上 运行 Backup NameNode 和 Checkpoint 

NameNode， 但 在 条 件 不 足 的 情况 下 ， 至 少 要 保证 Backup NameNode 
运行 在 一 台 专 用 主机 上 。 








3. 硬件 选 型 


在 确定 节点 所 用 硬件 规格 时 ， 不 能 只 考虑 要 存储 的 数据 量 大 小 。 除 此 之 
外 ， 还 要 考虑 市 点 的 处 理 能 力 、 内 存 大 小 、 和 存储 类 型 以 及 网 络 带宽 。 


我 们 讨论 了 很 多 为 Hadoop 集 群 选用 硬件 的 内 容 ， 再 次 声明 ， 没 有 一 个 答 
采 适 用 于 各 种 情况 。MapReduce 作 业 的 类 型 在 人 硬件 选 型 中 起 着 决定 性 作 
， 尤 其 是 ， 这 些 作业 是 否 受 限于 CPU、 内 存 、I/O 或 其 他 硬件 的 性 


侠 于 


4. 处 理 器 /内 存 /硬盘 空间 比 











考虑 作业 是 人 否 受 限于 处 理 器 、 内 存 或 者 MO 的 一 个 好 办 法 是 检查 CPU/ 内 
存 /硬盘 空间 比 。 例 如 ， 在 考虑 CPU/ 内 存 /硬盘 空间 比 的 情况 下 ， 我 们 认 
为 一 台 有 着 8 GB 内 存 、2 TB 硬盘 的 四 核 主 机 相当 于 一 台 内 存 大 小 为 4 

GB、 人 硬盘 大 小 为 1 TB 的 双核 主机 。 


然后 ， 检 查 一 下 将 要 运行 的 MapReduce 作 业 的 类 型 ， 这 样 的 比率 是 否 合 
人 
衡 的 配置 ? 


当然 ， 最 好 通过 原型 设计 和 各 种 指标 来 评估 这 个 问题 ， 但 有 时 候 这 些 方 
法 却 行 不 通 。 如 果 行 不 通 的 话 ， 考 虑 一 下 作业 的 哪个 阶段 最 耗资 源 。 例 
如 ， 我 们 曾 见 过 一 些 IO 密 集 型 作业 ， 它 们 从 硬盘 读 取 数据 ， 执 行 简单 
的 转换 之 后 就 把 结果 写 回 硬盘 。 如 果 我 们 的 工作 任务 具有 这 样 的 特点 ， 
可 能 需要 使 用 存储 空间 更 大 的 硬盘 (尤其 是 在 通过 使 用 多 个 人 硬盘 增加 

IO 的 情况 下 时 ) ， 可 以 相应 地 减少 CPU 和 内 存 。 


相反 ， 执 行 繁重 的 数字 运算 任务 的 作业 需要 更 多 的 CPU， 那 些 创建 或 使 
用 大 型 数据 结构 的 作业 则 需要 更 大 的 内 存 。 


也 可 以 从 作业 的 限制 因素 的 角度 考虑 这 个 问题 。 运 行 中 的 作业 是 计算 密 











集 型 (处 理 器 满 功率 运作 、 内 存 和 I/O 过 剩 )、 内 存 密集 型 (物理 内 存 
己 满 并 有 部 分 数据 交换 到 硬盘 、CPU 和 IO 过 剩 ) , 或 IO 密集 型 (CPU 
和 内 存 过 剩 ， 但 从 硬盘 读 写 数据 的 速度 已 达到 最 大 ) 中 的 哪 一 类 ? 是 否 
能 通过 增加 相应 的 硬件 来 改善 这 些 状况 ? 


当然 ， 用 户 需 要 不 断 调整 并 优化 人 硬件 配置 ， 因 为 一 旦 解决 了 某 个 限制 因 
素 后 ， 必 一 个 原本 不 明显 的 问题 就 会 暴露 出 来 。 所 以 一 定 要 记 住 ， 整 体 
思路 是 在 作业 应 用 场景 中 达到 最 佳 的 性 能 配置 。 


假如 你 确实 不 知道 作业 的 性 能 特点 ， 又 该 怎么 办 呢 ? 理想 情况 是 ， 基 于 
现 有 硬件 进行 原型 设计 ， 并 使 用 该 原型 系统 辅助 决策 。 但 是 ， 假 如 这 些 
都 无 法 实现 ， 用 户 只 能 不 断 调整 配置 并 通过 实验 来 验证 从 种 配置 是 否 合 
适 。 请 记 住 ，Hadoop 文 持 使 用 不 同 规格 的 硬件 ， 上 尽管 统一 规格 的 硬件 最 
终 会 简化 集群 的 创建 ， 所 以 搭建 一 个 最 小 规模 的 集群 并 评估 硬件 是 否 合 
适 。 这 些 评估 结论 可 以 为 购买 新 主机 或 升级 现 有 便 件 提 供 辅 助 信息 。 

















5. 基于 EMR 进 行 原型 设计 


回想 一 下 ， 在 弹性 MapReduce 集 群 中 配置 作业 时 ， 我 们 会 为 主 节 点 、 
DataNode 和 TaskTracker 选 择 不 同类 别 的 硬件 。 假 如 你 打算 在 EMR 上 运 
行 作 业 ，EMR 平 台 提 供 了 调整 便 件 配置 的 内 置 方案 ， 可 以 找到 既 满 足 价 
格 预算 又 符合 执行 速度 要 求 的 硬件 。 


但 是 ， 假 如 读者 不 打算 在 EMR 上 运行 作业 ， 还 可 以 把 它 用 作 重 要 的 原型 
设计 平台 。 假 如 用 户 在 为 集群 选 配 人 硬件 却 不 知道 作业 的 性 能 特点 ， 可 以 
考虑 在 EMR 上 进行 原型 设计 以 深入 理解 作业 特点 。 尽 管 这 样 可 能 会 支付 
一 些 未 曾 考 虑 过 的 EMR 服 务 费 用 ， 但 这 些 费 用 远 远 小 于 买 了 一 堆 完 全 不 
合适 的 便 件 的 开销 。 


7.4.2 ”特殊 节点 的 需求 


并 非 所 有 主机 的 硬件 需求 完全 相同 。 尤 其 是 ， 承 载 NameNode 进 程 的 主 
机 的 硬件 可 能 与 运行 DataNode 和 TaskTracker 的 主机 硬件 完全 不 同 。 


回想 一 下 ，NameNode 在 内 存 中 维护 了 HDFS 文 件 系 统 ， 文 件 、 路 径 、 数 
据 块 、 节 点 之 间 的 映射 关系 ， 以 及 与 上 述 内 容 相 关 的 多 种 元 数据 。 这 就 
意味 着 ，NameNode 可 能 会 受 限 于 内 存 ， 与 其 他 主机 相 比 ， 它 需要 更 大 





的 内 存 ， 尤 其 是 在 集群 规模 很 大 或 HDFS 上 存储 了 大 量 文件 时 ， 

NameNode 对 内 存 的 需求 更 为 强烈 。 我 们 通常 为 DataNode 或 TaskTracker 

选 配 16 GB 内 存 ， 但 却 需要 为 NameNode 选 配 64 GB 的 内 存 ， 甚 至 更 大 。 

a 2 的 物理 内 存 已 耗 尽 并 开始 使 用 虚拟 内 存 ， 这 将 严重 影响 
性 能 。 


然而 ， 尽 管 对 物理 内 存 而 言 ，64 GB 已 不 是 一 个 小 数字 ， 但 对 现在 的 硬 
盘 空 间 而 言 ， 这 个 数字 还 是 太 小 。 由 于 NameNode 节 点 的 硬盘 只 负责 存 
储 文件 系统 镜像 ， 不 需要 为 其 配备 稼 用 于 DataNode 的 大 容量 便 盘 。 我 们 
更 关注 的 是 NameNode 的 可 靠 性 ， 所 以 需要 按照 见 余 配置 的 要 求 为 其 配 
备 多 块 便 答 。 因 此 ， 为 了 达到 元 余 备份 的 目的 ， 与 大 容量 硬盘 相 比 ， 
NameNode 主 机 更 喜欢 选用 多 块 小 容量 硬 租 。 


总 的 来 讲 ，NameNode 主 机 与 集群 中 其 余 主 机 不 同 。 这 也 是 我 们 之 前 建 
议 只 要 预算 允许 ， 束 将 NameNode 迁 移 到 专用 主机 上 的 原因 ， 因 为 它 的 
特殊 硬件 需求 较为 容易 满足 。 


提示 : ， SecondaryNameNode 〈Hadoop2.0 中 的 CheckpointNameNode 和 
BackupNameNode) 对 硬件 的 需求 与 NameNode 相 同 。 因 为 它 起 的 是 备 
份 蔡 代 作用 ， 用 户 可 以 在 更 通用 的 主机 上 运行 SecondaryNameNode。 但 
如 果 主 节点 发 生 故 障 ， 用 户 需 要 将 NameNode 迁 移 到 备用 节点 时 ， 通 用 
硬件 可 能 会 带 来 肪 烦 。 


7.4.3 不 同类 型 的 存储 系统 


尽管 用 户 可 能 在 “处 理 器 、 内 存 、 便 盘存 储 空间 或 WO 的 相对 重要 性 ”这 
一 问题 上 坚持 上 自己 的 观点 ， 这 些 争 论 通 党 都 以 应 用 程序 的 需求 、 硬 件 特 
点 和 指标 为 基础 。 但 是 ， 在 讨论 选用 哪 种 类 型 的 存储 系统 时 ， 人 们 经 党 
会 因为 根深 蒂 固 的 观念 而 发 生 激烈 的 争执 。 











1. 通用 存储 与 企业 级 存储 的 对 比 


第 一 个 争议 是 选用 通用 硬盘 还 是 选用 企业 用 户 硬 盘 呢 ? 哪 种 选择 更 有 意 
义 ? 前 者 《主要 是 SATA 硬 盘 ) 体积 较 大 ， 价 格 更 便宜 ， 读 写 速度 相对 
较 慢 ， 平 均 无 故障 时 间 〈MTBF) 更 短 。 企 业 级 硬盘 使 用 了 SAS 或 光纤 
忆 体 上 更 为 小 巧 ， 价 格 更 高 ， 读 写 更 快 ， 平均 无 故障 时 间 较 


2. 独立 人 硬盘 与 RAID 的 对 比 


第 二 个 问题 是 选择 哪 种 硬盘 配置 方式 。 企 业 级 的 解雇 方案 是 使 用 廉价 磁 
盘 元 余 阵 列 〈RAID) 把 多 个 硬盘 聚合 成 一 个 独立 的 逻辑 存储 设备 。 它 
以 损失 整体 存储 能 力 以 及 读 写 速率 为 代价 ， 可 以 不 动 声色 地 解决 一 个 或 
多 个 硬盘 的 故障 。 


另 一 种 方案 是 独立 使 用 每 个 硬盘 ， 以 达到 总 体 存 储 能 力 和 IO 最 大 化 ， 
但 其 缺点 是 ， 在 茶 个 硬盘 发 生 故障 的 情况 下 ， 主 机 就 会 宕 机 。 


3. 综合 考虑 


在 许多 方面 ，Hadoop 系 统 会 假设 硬件 故障 不 可 避免 。 从 这 个 角度 来 看 ， 
可 能 不 需要 使 用 传统 的 企业 关注 的 存储 功能 。 反 而 可 以 使 用 许多 大 体积 
的 廉价 硬盘 增 大 整体 存储 能 力 ， 通 过 并 行 读 写 提高 O 厨 吐 率 。 单 个 便 
盘 的 故障 可 能 导致 主机 失败 ， 但 我 们 已 学 习 过 ， 集 群 会 处 理 这 个 故障 。 


这 和 古 一 个 非常 有 效 的 方案 ， 筷 在 许多 情况 下 发 挥 了 重要 作用 。 但 是 ， 这 
个 方案 忽视 了 修复 故障 主机 的 成 本 。 如 果 用 户 使 用 的 集群 就 在 隔壁 房 

间 ， 并 且 手 头 上 有 许多 闲置 硬盘 ， 主 机 修复 工作 就 是 一 个 不 耗 时 的 、 易 
实现 的 、 低 成 本 的 任务 。 但 是 ， 如 果 用 户 集群 运行 在 商业 托管 设备 上 ， 

杀 目 动手 的 维护 成 本 相对 较 高 。 如 条 用 户 使 用 的 是 完全 托管 的 服务 器 ， 

需要 问 服 务 提供 者 支付 维护 费用 ， 那 么 维护 成 本 会 更 蜗 。 在 这 种 情况 

下 ， 虽 然 使 用 RAID 会 减少 整体 容量 以 及 降低 VO 否 吐 率 ， 但 其 能 够 降低 
维护 成 本 ， 也 是 一 种 值得 考虑 的 方案 。 























4. 网 络 存储 系统 


最 没 道理 的 就 是 使 用 网 络 存 储 系 统 作为 主 集群 存储 系统 。 不 管 是 通过 

SAN (Storage Area Network， 存 储 区 域 网 络 ) 技术 实现 的 数据 块 存储 

还 是 通过 NFS (Network File System， 网 络 文件 系统 ) 或 类 似 协 议 实现 
的 基于 文件 的 网 络 存储 ， 这 些 方 案 都 引入 了 一 些 不 必要 的 瓶颈 问题 和 可 
能 引发 故障 的 共享 设备 ， 从 而 限制 了 Hadoop。 


但 是 ， 茶 些 时候 ， 由 于 一 些 非 技术 原因 ， 你 不 得 不 采用 类 似 方案 。 并 不 
是 说 采用 这 些 方案 会 导致 Hadoop 停 止 工作 ， 而 是 会 影响 Hadoop 的 运行 
速度 以 及 容错 能 力 。 因 此 ， 用 户 要 能 够 正确 理解 采用 这 些 方案 带 来 的 后 








果 。 
7.4.4 Hadoop 的 网 络 配 置 


与 它 对 存储 设备 的 支持 相 比 ，Hadoop 对 网 络 设备 的 支持 要 简单 得 多 。 因 
此 ， 与 CPU、 内 存 和 硬盘 选择 相 比 ， 用 户 可 选 的 网 络 设 备 硬件 少 之 叉 

少 。 目 前 ，Hadoop 只 文 持 一 全 网 络 设备 ， 并 且 无 法 把 一 合 主机 上 的 所 有 
4 王 兆 以 太 网 连接 聚合 成 4 千 兆 吞吐 量 。 如 果 用 户 需 要 的 网 络 吞 吐 量 大 于 
1 千 兆 ， 除 非 硬 件 或 操作 系统 可 以 把 多 个 端口 整合 成 Hadoop 眼 中 的 一 全 
网 络 设备 ， 否 则 唯一 的 办 法 就 是 使 用 10 干 兆 以 太 网 设备 。 











1. 数据 块 放置 集 略 


我 们 讨论 了 很 多 HDFS 使 用 副本 作为 见 余 备份 的 内 容 ， 但 还 没有 研究 
Hadoop 如 何 决 定 放置 数 据 块 副本 的 位 置 。 


在 大 多 数 传 统 服务 器 群 中 ， 各 种 主机 (包括 网 络 设备 和 其 他 设备 ) 都 被 
放置 在 标准 尺寸 的 机 柜上 ， 重 直 地 一 层 一 层 地 堆 铸 起 来 。 每 个 机 柜 通 常 
都 有 一 个 为 其 供电 的 通用 配 电 装置 ， 此 外 还 有 一 个 网 络 交 换 器 用 于 将 机 
柜上 的 主机 接 入 到 更 广泛 的 网 络 。 

基于 这 种 结构 ， 我 们 可 以 确定 三 大 类 故障 类 型 : 

影响 单 台 主机 的 故障 (例如 ，CPU、 内 存 、 硬 盘 、 主 板 故 障 〉，; 
影响 机 柜上 上 所 有 主机 的 故障 〈 比 如 ， 供 电 装 置 或 交换 机 故障 ) ; 


影响 整个 集群 的 故障 例如 ， 更 多 电源 或 网 络 故 障 ， 制 冷 或 环境 监 
测 系 统 运行 中 断 〉。 


提示 : 请 记 住 ，Hadoop 目 前 不 文 持 分 布 于 多 个 数据 中 心 的 集群 ， 因 
此 ， 第 三 类 故障 极 有 可 能 导致 集群 朋 演 。 


默认 情况 下 ，Hadoop 按 照 每 个 节点 都 在 同一 个 物理 机 柜上 那样 处 理 节 
扩 。 这 束 意 味 厦 ， 每 对 主机 之 间 的 带 客 和 时 延 近 似 相 等 ， 并 且 每 个 节 扣 
受 相 关 故 障 影响 的 可 能 性 与 其 他 节点 相同 。 























2. 机 柜 认 知 


但 是 ， 如 果 用 户 使 用 了 多 机 柜 结构 ， 或 采用 了 与 先前 假设 矛盾 的 其 他 配 
置 ， 用 户 可 以 为 每 个 节 0 告 其 所 在 机 柜 ID 的 能 力 。 
Hadoop 会 在 安排 副本 位 置 时 考虑 到 这 一 点 


在 这 种 设置 中 ，Hadoop 设 法 将 茶 个 节点 的 第 一 个 副本 放置 在 该 主机 上 ， 
第 二 个 副本 放置 在 同一 个 机 柜 中 的 男 一 台 主 机 上 ， 第 三 个 副本 放 在 其 他 
机 柜 中 的 一 台 主 机 上 。 


这 种 集 略 较 好 地 平衡 了 性 能 和 可 用 性 这 两 个 因素 。 在 机 柜 带 有 自己 的 网 
络 交 换 机 时 ， 同 一 机 柜 内 部 主机 之 间 的 通信 比 它 与 男 一 机 柜上 主机 通信 
的 延迟 要 小 。 把 两 个 副本 放 在 同一 个 机 柜 内 的 主机 上 ， 保 证 了 对 这 些 副 
本 的 最 大 写 入 速度 ， 而 在 机 柜 外 放置 一 个 副本 则 可 在 机 柜 出 现 故 障 的 情 
况 下 提供 元 余 。 


报告 自身 所 在 机 柜 的 脚本 

















如 果 用 户 设置 了 topology.script.file.name 属性 并 把 它 指向 
NameNode 节 点 上 的 一 个 可 执行 脚本 ，NameNode 会 用 这 个 脚本 确定 每 台 
主机 所 在 的 机 柜 ID。 


请 注意 ， 该 属性 需要 用 户 进行 设置 ， 同 时 可 执行 脚本 只 能 位 于 
NameNode 主 机 。 


NameNode 向 该 脚本 传 入 它 要 调查 的 节点 的 IP 地 址 ， 脚 本 负责 实现 从 节 
点 IP 地 址 同 其 所 在 机 柜 名 的 映射 。 


如 琳 没 有 指定 可 执行 脚本 的 位 置 ， 所 有 节点 都 回 Hadoop 报 告 它们 位 于 同 
一 个 默认 机 柜 。 





7.5 实践 环节 : 碍 看 默认 的 机 柜 配 置 
我 们 看 一 下 如 何 为 集群 设置 默认 的 机 柜 配 置 。 
1. 执行 以 下 命令 。 


$ Hadoop fsck -rack 





2. 输出 结果 应 类 似 于 以 下 内 容 。 


Default replication factor: 3 

Average block replication: 3.3045976 
Corrupt blocks: 0 

Missing replicas: 18 (6.5217391 %) 
Number of data-nodes : 4 

Number of racks: 1 


The filesystem under path '/' is HEALTHY 





原理 分 析 


我 们 既 对 刚才 用 到 的 命令 感 兴 趣 ， 也 对 它 的 输出 感 兴 趣 。hadoop fsck 
工具 用 于 检测 并 修复 文件 系统 问题 。 可 以 看 出 ， 该 命令 包含 的 一 些 信息 
与 我 们 常用 的 hadoop dfsadmin 命令 有 些 相 似 ， 尽 管 后 者 更 倾向 于 详 
和 


hadoop fsck 输 出 的 一 部 分 信息 表明 了 集群 中 的 机 柜 总 数 。 从 上 例 的 输出 
可 以 看 出 ， 默 认 值 为 1 。 


提示 : ” 上述 命令 是 在 刚刚 用 作 HDFS 故 障 修复 测试 的 集群 上 执行 的 。 
这 就 是 解释 了 为 什么 “average block replication” 和 “under-replicated 








blocks” 的 值 显得 有 点 异常 。 


如 条 主机 发 生 临时 性 故障 ， 故 障 修复 后 勾 重 新 回 到 Hadoop 集 群 时 ， 可 
能 会 导致 数据 块 的 副本 数量 大 于 复制 因 了 于 。Hadoop 不 仅 会 增加 副本 以 
使 数据 块 副本 数量 满足 复制 因子 的 要 求 ， 它 还 会 删 掉 多 余 副 本 使 数据 
块 副本 数量 等 于 复制 因子 。 




















7.6 ”实践 环节 : 报告 每 从 主机 所 在 机 柜 


后 
人 台 主 机 获取 机 柜 位 置 的 脚本 ,改进 默 认 的 机 
Ei 设置 。 


1. 在 NameNode 主 机 的 Hadoop 用 户主 目录 下 创建 一 个 rack- 


script.sh 脚本 ， 其 内 容 如 下 。 请 记 住 将 其 中 IP 地 址 改 为 用 户 所 用 
HDFS 节 点 的 卫 。 


#!/bin/bash 

if [ $1 = "16.6.6.161" ]; then 
echo -n "/rackl " 

else 


echo -n "/default-rack " 


fi 





2. 把 rack-script.sh 脚本 做 成 可 执行 文件 。 


$ chmod +x rack-script.sh 





3. 在 NameNode 主 机 的 core-site.xml 文件 中 加 入 下 列 属 性 。 


<property> 
<name>topology.script.file.name</name> 
<value>/home/Hadoop/rack-script.sh</value> 
</property> 





4. 重启 HDFS。 


$ start-dfs.sh 


[| | 
通过 fsck 查看 文件 系统 。 


$ Hadoop fsck -rack 





其 输出 如 下 图 所 示 : 


hadoop@headnode > 

Fle Edit View Terminal Help 

hadoop@headnode:~$ hadoop fsck -rack ed 
FSCK started by hadoop from /127.0.0.1 for path / at Wed Jan 02 15:02:13 PST 201 
3 

.Status: HEALTHY 

Total size: 75342464B 人 
Total dirs: 3 

Total files: 1 

Total blocks (validated): 18 (avg. block size 4185692 B) 

Minimally replicated blocks: 18 (109.9 %) 

Over-replicated blocks: © (0.0 %) 

Under- replicated blocks: 9 (0.0 %) 

Mis- repLicated blocks: 0 (0.0 %) 

Default replication factor: 

Average block replication: 

Corrupt blocks: 

Mi eing Eap led: 


Nunber of ee 2 


The filesystem under path '/' 1s HEALTHY 
hadcop@headnode:;~$ | 








原理 分 析 


首先 ， 我 们 创建 了 一 个 脚本 文件 ， 它 为 某 个 节点 返回 “rack1”， 为 其 余 节 
点 返回 默认 值 。 我 们 把 该 脚本 放 到 NameNode 上 ， 并 将 所 需 的 配置 属性 
MA Nanme Nodel eone: site.xml 文件 。 


在 重启 HDFS 之 后 ， 我 们 使 用 hadoop fsck 获得 文件 系统 信息 。 可 以 看 
到 ， 和 集群 目前 被 设置 为 有 两 个 机 柜 。 Hadoop 得 知 集群 中 存在 企 两 个 机 柜 
后 ， 它 会 采用 之 前 介绍 的 更 为 复杂 的 数据 块 放置 策略 。 


技巧 : 使 用 外 部 主机 文件 


一 个 通用 的 办 法 是 使 用 类 似 于 Unix 的 /etc/hosts 的 数据 文件 指定 IP 
地 址 与 机 柜 的 映射 关系 ， 每 行 存储 一 个 映射 。 用 户 可 以 独立 更 新 该 文 
件 ， 然 后 使 用 rack-awareness 脚 本 读 取 文件 内 容 。 


完 竟 什么 是 商用 硬件 


让 我 们 回顾 一 下 集群 中 主机 的 共有 特点 ， 它 们 看 上 去 更 像 是 日 常 使 用 的 
组 装 服务 器 还 是 专门 构建 的 高 端 企业 服务 器 ? 
有 一 部 分 问题 在 于 ，“ 日 用 品 ” 是 一 个 含糊 的 字眼 。 在 茶 个 业务 中 看 来 便 
宜 的 商品 对 男 一 个 业务 来 讲 就 可 能 是 聚 华 高 档 的。 我 们 建议 在 选择 硬件 
时 考虑 以 下 几 个 要 素 ， 然 后 再 愉快 地 选择 。 
。 使 用 这 些 硬 件 ， 你 是 否 需要 为 保证 可 靠 性 付出 代价 ， 比 如 再 次 实现 
Hadoop 的 一 些 容错 机 制 ? 


。 付款 购买 的 高 端 硬 件 的 功能 能 否 解雇 现实 环境 中 遇 到 的 需求 或 困 
难 ? 

















。 有 没有 验证 过 ， 是 购买 融 并 硬件 更 费 钱 ， 还 是 使 用 便宜 的 、 可 徘 性 
稍 差 的 人 硬件 并 解决 由 此 禹 来 的 问题 的 花费 更 多 ? 


随 符 测 验 : 创建 集群 

问题 1 在 为 Hadoop 新 集群 选择 硬件 时 ， 下 列 哪个 因素 是 最 重要 的 ? 
1. CPU 内 核 数量 以 及 它们 的 运算 速度 。 

2. 物理 内 存 的 容量 。 

3. 硬盘 的 存储 容量 。 

4. 硬盘 的 读 写 速度 。 

5. 很 大 程度 上 ， 它 由 工作 量 决定 。 

问题 2 下 列 哪个 原因 导致 你 不 愿意 在 集群 中 采用 网 络 存储 方案 ? 














1. 它 可 能 引入 一 些 新 的 单 点 失效 问题 。 


2. 它 有 一 些 见 余 备 份 和 容错 方法 ， 由 于 Hadoop 己 经 提供 了 容错 机 制 ， 
这 些 特 性 是 不 必要 的 。 


3. 这 种 单个 设备 的 性 能 不 如 同时 使 用 多 个 本 地 硬盘 的 性 能 好 。 

4. 上 述 选 项 都 正确 。 
问题 3 假如 你 需要 在 集群 上 处 理 10 TB 数据 。MapReduce 主 作业 负责 处 理 
金融 交易 ， 用 这 些 交 易 生 成 数据 统计 模型 并 预测 未 来 。 你 将 为 集群 选择 
哪 种 硬件 配置 方案 ? 

1. 20 台 配 有 双核 处 理 器 ，4 GB 内 存 以 及 500 GB 硬盘 的 主机 。 

2. 30 台 配 有 双核 处 理 器 ，8 GB 内 存 以 及 2 块 500 GB 硬盘 的 主机 。 

3. 30 台 配 有 四 核 处 理 器 ，8 GB 内 存 以 及 1 块 1 TB 硬盘 的 主机 。 


4. 40 台 配 有 四 核 处 理 器 ，16 GB 内 存 以 及 4 块 1 TB 硬盘 的 主机 。 








7.7 集群 访问 控制 


一 旦 轿 新 的 集群 安装 并 运行 起 来 之 后 ， 用 户 需 要 考虑 访问 控制 以 及 安全 
性 问题 。 谁 可 以 访问 集群 上 的 数据 ? 是 否 有 一 些 敏感 数据 不 希望 整个 用 
户 群 都 可 以 访问 ? 


Hadoop 安 全 模型 


Hadoop 一 直 都 缺乏 安全 机 制 ， 直 到 最 近 ， 才 出 现 了 一 种 充其量 只 能 称 之 
为 “标记 ”的 安全 模型 。 它 把 每 个 文件 与 其 创建 者 及 所 属 用 户 组 关联 起 
来 ， 但 却 很 少 验证 特定 的 客户 并 连接 。 强 安全 机 制 不 仪 会 管理 文件 标 
记 ， 而 且 会 验证 所 有 连接 到 Hadoop 的 用 户 身 份 。 


7.8 实践 环节 : 展示 Hadoop 的 默认 安全 机 制 


我 们 曾 展示 过 一 些 文 件 列表 ， 这 些 文件 的 属性 包括 所 属 用 户 及 用 户 组 的 
名 称 。 但 是 ， 我 们 未 曾 研 究 它 们 的 真正 意义 。 


1. 在 hadoop 用 户 的 根 目 录 下 创建 一 个 测试 文本 文件 。 


$ echo "I can read this!" > security-test.txt 
$ hadoop fs -put security-test.txt security-test.txt 





2. 更 改 文件 权限 ， 使 其 只 能 被 文件 创建 者 访问 。 


$ hadoop fs -chmod 766 security-test.txt 
$ hadoop fs -1s 





上 述 命令 的 输出 结果 如 下 图 所 示 。 


加 had5opGhaadnodE 

Ble Edt View Terminal Help 

hadoop@headnode:~$ hadoop fs -ls 

Found 2 items 

=-rW- 3 hadoop supergroup 16 2013-01.02 15:14 /user/hadoop/security: test.txt 
-rw-r--T-- 3 hadoop supergroup ”75342464 2013-01-02 14:56 /usery/hadoop/ufo.tsv 
hadoop@headnode:~$ 








3. 确认 你 仍然 可 以 读 取 该 文件 内 容 。 


$ hadoop fs -cat security-test.txt 





你 会 在 屏幕 上 看 到 下 面 这 行 字 。 


I can read this! 





4. 连接 到 集群 中 的 万 一 个 节点 并 试 着 读 取 文件 内 容 。 


$ ssh node2 
$ hadoop fs -cat security-test.txt 





你 会 在 屏幕 上 看 到 下 面 这 行 字 。 


I can read this! 





. 从 其 他 节点 退出 系统 。 


$ exit 


. 为 其 他 用 户 创建 根 目录 ， 并 赋予 它们 所 有 权 。 


$ hadoop m[Kfs -mkdir /user/garry 
$ hadoop fs -chown garry /user/garry 
$ hadoop fs -ls /user 





述 命令 的 结果 如 下 图 所 示 : 





mooop enesdnode 
Fle Edt View Terminal Help 

hadoop@headnode:~$ hadoop fs -ls /user 

Found 2 1tems 

drwxr-xr-x garry supergroup © 2013-01-02 15:18 /user/garry 

drwxr-xr-x < hadoop supergroup © 2013.01-02 15:14 /user/hadoop 
hadoop@headnode:~$ 中 








7. 切换 到 garry 用 户 。 


$ su garry 


8. 试看 读 取 hadoop 用 户 根 目录 下 的 测试 文件 。 


$ hadoop/bin/hadoop fs -cat /user/hadoop/security-test.txt 

cat: org.apache.hadoop.security.AccessControlException: Permission 
denied: user=garry, access=READ, inode="security-test.txt":hadoop: 
supergroup:rw 





9. 把 hadoop 目 录 下 的 security-test.txt 文 件 复 制 到 garry 用 户 根 目录 ， 并 
设置 文件 访问 权限 ， 使 其 只 能 被 创建 者 访问 。 
$ Hadoop/bin/Hadoop fs -put security-test.txt security-test.txt 


$ Hadoop/bin/Hadoop fs -chmod 766 security-test.txt 
$ hadoop/bin/hadoop fs -1s 





上 述 命令 的 输出 如 下 图 所 示 : 


CETDYGLITSETE DT CE 


Ble Edit View Terminal Help 


garry@headnode:~$ hadoop fs -ls 
Found 1 items 


3 garry Supergroup 17 2013-01-02 15:40 /user/garry/security-test.txt 
garry@headnode:~$ 





10. 确认 garry 用 户 可 以 读 取 该 文件 内 容 。 


$ hadoop/bin/hadoop fs -cat security-test.txt 


你 会 在 屏幕 上 看 到 下 面 这 


I can read this! 


11. 注销 系统 并 返回 到 hadoop 用 户 。 


LN 


12. 符 试 访问 garry 用 户 根 目录 下 的 security-test.txt 文 件 。 


$ hadoop fs -cat /user/garry/security-test.txt 


你 会 在 屏幕 上 看 到 下 面 这 


I can read this! 


原理 分 析 

















我 们 首先 使 用 hadoop 用 户 在 HDFS 的 根 目 录 下 创建 一 个 测试 文件 。 接 下 
来 ， 我 们 使 用 hadoop fs 命令 的 -chmod 选项 修改 文件 权限 ， 之 前 从 未 
见 过 该 选项 。 它 与 标准 Unix 的 chmod 工具 非常 相似 ， 可 以 为 文件 创建 
者 、 某 一 用 户 组 中 所 有 成 员 以 及 所 有 用 户 指 定 文件 的 读 / 写 /执行 权限 。 











接 痢 ， 我 们 再 次 使 用 hadoop 用 户 登 录 到 另 一 台 主 机 并 试图 访问 文件 。 盏 
不 奇怪 ， 文 件 访问 成 功 。 但 是 为 什么 呢 ? Hadoop 赁 什么 来 判断 用 户 号 份 
并 决定 是 否 允 许 其 访问 特定 文件 呢 ? 


为 了 研究 这 个 问题 ， 我 们 随后 在 HDFS 创 建 了 另 一 个 根 目 录 (可 以 使 用 
登录 到 主机 上 的 任意 账号 ) ， 并 通过 hadoop fs 命令 的 -chown 选项 为 
该 目录 赋予 创建 者 权限 。 这 个 过 程 依 然 类 似 于 标准 Unix 的 chown 工具 。 
然后 ， 我 们 切换 到 garry 用 户 并 试图 访问 存放 在 hadoop 用 户 根 目 录 下 的 文 
件 。 这 次 访问 失败 了 ， 系 统 给 出 一 个 安全 异常 ， 这 也 符合 我 们 的 预期 。 
接 下 来 ， 我 们 把 测试 文件 拷贝 到 garry 用 户 的 根 目录 下 ， 并 修改 其 权限 ， 
使 其 只 能 被 创建 者 访问 。 


为 了 把 事情 弄 乱 ， 我 们 又 切换 回 hadoop 用 户 并 试 着 访问 garry 用 户 根 目 录 
下 的 文件 。 令 人 奇怪 的 是 ， 居 然 访问 成 功 了 。 








1. 用 户 身 份 


第 一 个 问题 的 答案 是 ，Hadoop 使 用 执行 HDFS 命 令 的 用 户 的 Unix ID 作为 
HDFS 上 的 用 户 身 份 。 所 以 ， 用 户 alice 执行 命令 创建 的 文件 的 所 有 者 
为 alice ,该 用 户 只 能 读 写 其 拥有 相应 访问 权限 的 文件 。 


有 安全 意识 的 人 会 认识 到 ， 任 何人 只 要 在 可 以 连接 到 集群 的 任意 一 台 主 
机 上 创建 一 个 与 现 有 HDFS 用 户 同 名 的 用 户 ， 即 可 实现 对 Hadoop 集 群 的 
访问 。 因 此 ， 在 上 个 例子 中 ， 在 任何 一 台 可 以 访问 NameNode 的 主机 上 
创建 的 名 为 hadoop 的 用 户 都 可 以 读 取 用 户 hadoop 可 访问 的 文件 内 容 ， 
这 种 情况 非常 糟糕 。 














超级 用 户 


上 个 例子 中 ， 我 们 看 到 hadoop 用 户 访 问 了 garry 用 户 的 文件 。Hadoop 把 
启动 集群 的 用 户 ID 视 为 超级 用 户 ， 并 赋予 其 多 种 特权 ， 比 如 读 、 写 、 修 
改 HDFS 上 任意 文件 的 权限 。 有 安全 意识 的 人 会 认识 到 ， 这 种 风险 甚至 
和 
风险 更 大 。 


2. 更 细 粒 上 度 的 访问 控制 


在 Hadoop 发 展 的 早期 阶段 ， 上 述 情况 导致 其 安全 性 成 为 一 个 主要 弱点 。 
但 是 ，Hadoop 开 发 团队 没有 俘 清 不 前 ， 在 完成 大 量 工作 之 后 ， 最 新 版 的 
Hadoop 文 持 更 细 粒 度 的 、 更 强 的 安全 模型 。 


为 避免 简单 依赖 于 用 户 ID， 开 发 者 需要 从 其 他 地 方 获 悉 用 户 喘 份 ， 他 们 
选择 了 Kerberos 系 统 。 这 需要 建立 并 维护 Kerberos 系 统 ， 它 们 超出 了 本 
书 范围 ， 但 如 果 这 些 安全 机 制 对 读者 来 讲 很 重要 的 话 ， 请 上 自行 查阅 
Hadoop 文 档 。 请 注意 ， 用 户 可 以 综合 使 用 基于 Kerbros 的 身份 认证 机 制 
和 其 他 第 三 方 认 证 系统 ， 如 人 微软 活动 目录 (Microsoft Active 

Directory) ， 因 此 其 功能 非常 强大 。 


通过 物理 访问 控制 解决 安全 模型 问题 


如 果 读 者 认为 Kerberos 系 统 太 过 复杂 ， 或 者 安全 性 是 一 个 最 好 具备 而 非 
必须 具备 的 功能 ， 还 可 以 通过 一 些 其 他 办 法 降低 安全 风险 。 我 喜欢 的 一 
个 办 法 是 ， 将 整个 集群 部 署 在 有 着 严格 的 访问 控制 策略 的 防火 墙 之 后 。 
尤其 是 ， 只 人 允许 集群 中 的 一 台 主 机 访问 NameNode 和 JobTracker 服 务 ， 该 
主机 被 视 为 集群 的 头 节 点 ， 所 有 用 户 都 要 连 到 该 主机 。 


技巧 : 从 集群 外 的 主机 访问 Hadoop 


使 用 命令 行 工 具 访 问 HDFS 或 运行 MapReduce 作 业 时 ， 并 不 要 求 
Hadoop 处 于 运行 状态 。 只 要 正确 地 安装 了 Hadoop， 并 在 其 配置 文件 
中 正确 设置 了 NameNode 或 者 JobTracker 的 位 置 ， 调 用 Hadoop fs 和 
Hadoop jar 命令 时 就 会 找到 NameNode 或 者 JobTracker 市 点 。 


这 种 模型 的 工作 原理 是 ， 保 证 只 有 一 台 主 机 可 以 与 Hadoop 交 互 。 因 为 该 
主机 被 集群 管理 员 控 制 ， 正 常用 户 无 法 创建 或 访问 其 他 用 户 账号 。 


请 记 住 ， 这 种 方法 并 不 提供 安全 机 制 。 它 为 一 个 脆弱 的 系统 套 上 了 坚硬 
的 外 壳 ， 可 以 降低 破坏 Hadoop 安 全 模型 的 可 能 性 。 

















7.9 ”管理 NameNode 


接 下 来 ， 我 们 将 讨论 更 多 降低 风险 的 有 效 途 径 。 在 第 6 章 中 ， 我 曾 以 
NameNode 主 机 故障 可 能 造成 的 严重 后 末 为 例 虾 咀 过 读者 。 如 果 那 一 节 
没有 吓 到 你 ， 回 过 头 去 再 读 一 过 。 概 括 地 讲 ， 如 朱 集 群 中 的 NameNode 
无 法 提供 服务 ， 用 户 会 失去 存储 在 集群 上 的 所 有 数据 。 这 是 因为 
NameNode 负 责问 fsimage 文件 写 入 数据 ， 该 文件 包含 了 文件 系统 的 所 
有 元 数据 并 记录 了 哪个 文件 由 哪些 数据 块 组 成 。 如 果 NameNode 主 机 不 
再 提供 服务 ， 会 造成 用 户 无 法 访问 fsimage 文件 ， 其 效果 就 像 是 丢失 了 
所 有 HDFS 数 据 。 


为 fsimage 配 置 多 个 存储 位 置 


用 户 可 以 配置 多 个 fsimage 文件 的 存储 路 径 ， 这 样 NameNode 就 会 同时 

问 多 个 位 置 写 入 fsimage 文件 。 这 完全 是 一 种 元 余 宋 略 ， 多 个 存储 设备 
只 是 用 于 存储 相同 数据 的 多 个 副本 ， 而 且 其 目的 并 不 是 为 了 提高 性 能 。 

a 通过 这 种 策略 ， 可 以 降低 fsimage 文件 的 多 个 副本 同时 丢失 的 可 
能 性 。 








7.10 ”实践 环节 : 为 fsimage 文 件 新 增 一 个 存储 路 


pp 
仔 








为 了 满足 数据 恢复 的 需求 ， 我 们 把 NameNode 配 置 成 同时 输出 fsimage 
文件 的 多 个 副本 。 为 了 完成 相应 的 设置 ， 我 们 需要 一 个 NFS 导 出 目录 。 


1. 


确保 集群 已 停止 运行 。 


$ stop-all.sh 


. 在 Hadoop/conf/core-site.xml 文件 中 加 入 下 列 属 性 ， 把 第 二 个 


pe 改 为 NFS 挂 接 位 置 ，NameNode 的 男 一 个 副本 数据 可 以 写 入 该 
YY 置 。 


<property> 
<name>dfs.name.dir</name> 
<value>${hadoop.tmp.dir}/dfs/name,/share/backup/namenode</value> 


</property> 





. 删除 新 增 路 径 下 的 已 有 内 容 。 


$ rm -f /share/backup/namenode 





.局 动 集群 。 


$ start-all.sh 





. 验证 fsimage 被 写 入 指定 的 那 两 个 位 置 ， 并 为 之 前 指定 的 这 两 个 文 


件 运行 nd5sum 命令 〈 根 据 你 配置 的 路 径 修改 下 列 代码 ) 。 


$ md5sum /var/hadoop/dfs/name/image/fsimage 
a25432981b6ecd6b76da647e9b94364a /var/hadoop/dfs/name/image/ 
fsimage 

$ md5sum /share/backup/namenode/image/fsimage 
a25432981b6ecd6b76da647e9b94364a /share/backup/namenode/image/ 


fsimage 





原理 分 析 





首先 ， 我 们 保证 集群 已 经 停止 运行 。 尽 管 正在 运行 的 集群 不 会 重新 读 取 
修改 过 的 核心 配置 文件 的 内 容 ， 但 在 配置 之 前 停止 集群 运行 是 一 个 好 习 
惯 ， 可 以 防范 Hadoop 新 加 入 重新 读 取 核心 配置 文件 这 一 功能 。 


接着 ， 我 们 在 集群 配置 文件 中 加 入 一 个 新 属性 : data.name.dir 。 该 
属性 的 值 以 逗号 为 分 隔 符 ， 指 明了 fsimage 文件 的 写 入 路 径 。 请 注 

意 ，data.name.dir 有 反 同 引用 了 之 前 曾 讨论 过 的 hadoop.tmp.dir 属 
性 ， 其 语法 与 Unix 中 的 变量 反问 引用 类 似 。 使 用 该 语法 可 以 在 其 他 属性 
值 基 础 上 扩展 新 的 属性 值 ， 并 可 以 继承 父 属 性 的 更 新 。 


技巧 别 筷 了 加 入 需要 的 所 有 位 置 


data.name.dir 属性 的 默认 值 是 ${Hadoop.tmp.dir}/dfs/name。 
在 新 增 另 一 个 属性 值 时 ， 记 得 要 明确 地 加 入 原来 的 默认 值 ， 如 上 所 
示 。 人 否则 ， 该 属性 只 会 使 用 那个 新 值 。 


在 局 动 集群 之 前 ， 我 们 要 确保 存在 新 路 径 且 该 路 径 下 没有 数据 。 如 果 不 
存在 该 路 径 ，NameNode 的 局 动 过 程 会 失败 ， 这 是 我 们 可 以 预料 的 。 但 
是 ， 如 果 曾 在 该 目录 下 存储 NameNode 数 据 ， 启 动 过 程 同样 会 失败 ， 
为 两 个 路 径 下 的 NameNode 数 据 不 同 ，NameNode 无 法 确定 哪个 才 是 正确 
的 。 

















请 注意 ! 读者 一 定 不 想 意外 误 删 了 茶 个 目录 中 的 数据 ， 尤 其 是 在 试验 使 
二 多 个 NameNode 数 据 存放 位 置 ， 或 者 在 市 点 间 往复 交换 页 面 数 据 的 时 
恬 。 





在 启动 HDFS 集 群 后 ， 稍 等 片刻 ， 然 后 使 用 MD5 校 验 和 来 验证 这 些 位 置 
存放 的 fsimage 文件 完全 相同 。 


fsimage 副 本 的 写 入 位 置 





我 们 推荐 至 少 向 两 个 位 置 写 入 fsimage 文件 ， 其 中 一 个 位 置 应 当 是 远程 
文件 系统 ， 例 如 网 络 文件 系统 CNFS) ， 就 像 上 个 例子 那样 。Hadoop 系 
统 只 会 定期 更 新 fsimage 文件 的 内 容 ， 因 此 不 需要 文件 系统 的 性 能 有 多 
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在 前 几 节 学 习 选 配 硬 件 的 时 候 ， 我 们 上 暗示 过 读者 要 为 NameNode 选 配 特 
殊 硬件 。 因 为 fsimage 文件 至 关 重要 ， 有 必要 将 其 写 入 多 个 硬盘 ， 也 有 
必要 为 其 购置 高 可 靠 性 的 硬盘 ， 甚 至 可 以 将 其 写 入 RAID 阵 列 。 如 果 
NameNode 主 机 发 生 故 障 ， 最 简单 的 办 法 就 是 使 用 写 入 远程 文件 系统 的 
fsimage 副本 。 但 假如 恰好 远程 文件 系统 也 发 生 了 故障 ， 只 好 从 宕 机 的 
NameNode 上 拔 下 硬盘 并 插入 另 一 台 主 机 恢复 数据 。 











迁移 到 另 一 台 NameNode 主 机 

我 们 已 确保 fsimage 写 入 多 个 位 置 ， 这 是 问 男 一 台 NameNode 迁 移 的 最 
重要 的 前 提 。 现 在 我 们 来 完成 这 个 迁移 过 程 。 

切记 不 要 在 产品 集群 上 执行 这 些 操 作 。 在 产品 集群 上 进行 首次 实验 是 被 
绝对 禁止 的 ， 但 即使 不 是 第 一 次 执行 这 些 操作 也 不 能 说 明 这 些 操作 是 完 
全 没有 风险 的 。 但 一 定 要 在 其 他 集群 上 进行 实验 ， 从 而 知道 在 灾难 匀 来 
的 时 候 应 该 怎么 办 。 


在 灾难 来 袭 之 前 做 好 准备 








读者 一 定 不 想 在 需要 恢复 产品 集群 时 才 来 学 习 本 节 内 容 。 提 前 做 一 些 准 
备 工作 ， 不 仅 可 以 在 灾难 发 生 后 恢复 NameNode， 而 且 可 以 使 这 个 过 程 
更 轻松 。 


。 保证 NameNode 回 多 个 位 置 写 入 fsimage 文件 。 


。 决定 在 哪 台 主机 上 运行 新 NameNode。 假 如 该 主机 目前 被 用 作 
DataNode 和 TaskTracker， 确 保 其 硬件 配置 满足 NameNode 的 需求 ， 


并 且 不 会 因 缺 少 一 台 工 作 主机 而 造成 集群 性 能 大 幅 下 降 。 


。 复制 core-site.xml 和 hdfs-site.xml ， 最 好 把 它们 放 到 网 络 文 
件 系 统 CNFS) 上 ， 并 修改 这 些 文件 内 容 ， 使 其 指向 新 NameNode 
主机 。 在 对 现 有 配置 文件 进行 修改 的 时 候 ， 也 要 及 时 在 这 些 配 置 文 
件 副 本 中 进行 相同 修改 。 


。 把 位 于 NameNode 主 机 上 的 slaves 文件 拷贝 到 新 NameNode 主 机 或 
者 NFS 的 共享 文件 来 。 同 样 ， 要 保证 对 它 进 行 同步 更 新 。 


。 明白 如 何 处 理 新 主机 出 现 的 故障 。 修 复 或 蔡 换 原来 的 发 生 故 障 的 主 
机 需要 多 长 时 间 ? 在 此 期 间 ， 哪 台 主机 将 作为 下 一 台 承 载 
NameNode 和 SecondaryNameNode 的 主机 ? 


准备 好 了 吗 ? 让 我 们 开始 吧 ! 


7.11 实践 环节 : 迁移 到 新 的 NameNode 主 机 


下 面 的 步骤 中 ， 我 们 把 新 配置 文件 放 在 挂 接 到 share/backup 的 一 个 
NEFS 共 享 文件 夹 中 ， 并 根据 新 文件 的 存储 位 置 改变 配置 文件 中 的 相应 内 
容 。 男 外 ， 我 们 在 配置 文件 中 查找 新 NameNode 主 机 的 IP 地 址 ， 该 IP 地 
址 专用 于 NameNode 主 机 。 


1. 登录 到 目前 的 NameNode 主 机 ， 停 止 集群 运转 。 


$ stop-all.sh 


2. 关闭 运行 着 NameNode 进 程 的 主机 。 


$ sudo poweroff 


3. 登录 到 承载 新 NameNode 进 程 的 主机 ， 并 确认 新 配置 文件 中 的 
NameNode 位 置 是 正确 的 。 


$ grep 116 /share/backup/*.xml 


4. 把 slaves 文件 拷贝 到 新 NameNode 主 机 上 。 


$ cp /share/backup/slaves Hadoop/conf 


. 把 更 新 过 的 配置 文件 拷贝 到 新 NameNode 主 机 上 。 


$ cp /share/backup/*site.xml Hadoop/conf 





Ul 


10. 


11. 





. 删 去 本 地 文件 中 的 旧 NameNode 的 数据 。 


$ rm -f /var/Hadoop/dfs/name/* 





. 把 更 新 过 的 配置 文件 找 贝 到 集群 中 的 每 个 节操 。 


$ slaves.sh cp /share/backup/*site.xml] Hadoop/conf 








. 保证 每 个 大 点 上 有 一 个 指向 新 NameNode 节 点 的 配置 文件 。 


$ slaves.sh grep 116 hadoop/conf/*site.xml 





.局 动 集群 。 


$ start-all.sh 


通过 命令 行 检 查 HDFS 的 运行 状态 。 


$ Hadoop fs ls / 





验证 是 否 可 通过 网 页 用 户 接口 访问 HDFS 。 


原理 分 析 


首先 ， 我 们 关 挥 了 整个 集群 。 这 个 操作 不 具有 代表 性 ， 因 为 由 故障 导致 
NameNode 停 止 运行 的 大 多 数 情况 下 ，NameNode 停 止 运行 的 方式 都 不 太 
友好 。 但 本 章 后 面 几 节 会 讲 到 文件 系统 错误 引发 的 问题 。 


接着 ， 我 们 关 掉 了 旧 NameNode 主 机 。 严 格 意义 上 来 讲 ， 这 不 是 必要 
的 ， 和 认为 同 新 
NameNode 主 机 的 迁移 过 程 很 顺利 。 


在 把 配置 文件 拷贝 到 新 主机 之 前 ， 我 们 快速 浏览 一 下 core-site.xm 和 
hdfs-site.xml ， 确 认 core-site.xml 中 的 fs.default.dir 属性 值 
是 正确 的 。 


之 后 ， 我 们 在 新 主机 上 进行 准备 工作 。 首 先 把 slaves 配置 文件 以 及 集 
群 配置 文件 拷贝 至 新 主机 ， 然 后 把 本 地 路 径 下 的 旧 NameNode 数 据 删 
除 。 参 阅 前 面 的 步骤 ， 本 步骤 要 特别 小 心 。 


接 下 来 ， 我 们 使 用 slaves. sh 脚本 把 新 配置 文件 拷贝 到 集群 中 每 个 节点 
上 。 我 们 知道 ， 只 有 新 NameNode 主 机 的 卫 中 包含 字符 串 “110”， 因 此 我 
们 在 文件 中 查找 该 字符 串 以 确保 所 有 配置 都 是 最 新 的 〈 很 明显 ， 你 需要 
在 你 的 系统 中 使 用 一 个 不 同 的 字符 串 ) 。 


至 此 ， 所 有 操作 都 已 完成 。 我 们 局 动 集群 并 通过 命令 行 工具 和 网 页 用 户 
接口 访问 集群 ， 以 确认 集群 按照 我 们 预期 的 方式 运转 。 











1. 不 要 高 兴 得 太 早 


请 记 住 ， 即 使 成 功 地 迁移 到 了 新 NameNode 主 机 ， 事 情 还 没有 完成 。 你 

要 提前 决定 如 何 处 理 SecondaryNameNode， 以 及 假如 NameNode 再 次 
出 现 故 障 ， 下 一 步 要 把 NameNode 迁 移 到 哪 台 主机 上 。 为 了 做 好 这 些 准 
备 ， 你 需要 再 次 浏览 刚刚 提 到 的 “准备 工作 ?清单 并 据 此 开展 准备 工作 。 


提示 : 不 要 忘 了 考虑 及 生 关 联 故 障 的 可 能 性 。 及 时 调查 NameNode 主 
机 发 生 故 障 的 原因 ， 和 否则 它 将 再 次 引发 更 大 的 问题 。 








2. 如 何 完 成 JobTracker 迁 移 过 程 


我 们 没有 提 如 何 迁 移 JobTracker， 因 为 第 6 章 曾 讲 过 ， 这 个 过 程 相对 简 


单一 些 。 如 果 NameNode 和 JobTracker 运 行 在 同一 台 主 机 上 ， 需 要 改进 上 
述 方法 ， 即 更 新 mapred-site.xml 副本 的 内 容 ， 使 其 中 的 
mapred. job .tracker 属性 指向 新 JobTracker 主 机 的 位 置 。 

一 展 身 手 : 把 NameNode 汗 移 到 一 台新 主机 


实践 一 下 ， 把 NameNode 和 JobTracker 从 一 台 主 机 迁移 到 男 一 台 主 机 
5 


7.12 ”管理 HDFS 


在 第 6 章 中 曾 讲 到 过 ， 杀 死 节点 并 重启 时 ，Hadoop 会 自动 解决 很 多 可 用 
性 问题 。 如 果 在 传统 文件 系统 上 ， 这 些 问 题 会 耗费 集群 管理 员 很 多 精 
力 。 虽 然 Hadoop 目 动 实现 了 这 些 功 能 ， 但 我 们 仍 需 了 解 其 工作 原理 。 


7.12.1 数据 写 入 位 置 


就 像 可 以 通过 dfs .name.dir 属性 为 NameNode 的 fsimage 文件 指定 多 
个 存储 位 置 一 样 ， 我 们 曾经 提 到 过 ， 有 一 个 名 为 dfs .data.dir 的 类 似 
属性 ， 它 允许 在 HDFS 使 用 多 个 数据 存储 位 置 。 本 市 我 们 将 学 习 相关 内 


AAAN 


合 。 


这 是 一 种 有 效 方案 ， 其 工作 原理 与 NameNode 的 原理 有 较 大 区 别 。 如 果 
在 dfs.data.dir 属性 值 中 指定 多 个 路 径 ，Hadoop 会 把 它们 当做 可 并 行 
使 用 的 独立 位 置 。 如 果 用 户 拥 有 多 个 指 辣 文件 系统 不 同位 置 的 物理 硬盘 
或 其 他 存储 设备 时 ， 这 个 属性 非常 有 用 。Hadoop 会 智能 调度 这 些 设备 ， 
不 仅 可 使 存储 总 量 最 大 化 ， 同 时 将 读 写 操作 均匀 分 配 到 这 些 设备 上 ， 以 
获得 最 大 吞吐 量 。 在 7.4.3 节 曾 提 到 ， 这 种 方法 可 以 达到 存储 量 和 吞吐 量 
最 大 化 ， 但 却 以 健壮 性 为 代价 ， 单 个 硬盘 故障 就 会 导致 主机 失效 。 


7.12.2 ”使 用 平衡 器 


Hadoop 尽 量 优化 HDFS 上 的 数据 块 存 放 和 策略， 以 达到 最 佳 性 能 和 最 大 宛 
余 。 但 是 ， 在 某 些 情况 下 ， 集 群 出 现 了 失衡 现象 ， 各 节点 存储 的 数据 量 
有 着 较 大 差异 。 最 典型 的 情况 就 是 集群 中 出 现 新 增 节 点 的 时 候 。 默 认 情 
况 下 ，Hadoop 认 为 新 增 节 点 和 其 他 节点 地 位 相同 ， 这 就 意味 着 ， 在 相当 
长 一 段 时 间 内 ， 新 增 节点 的 空间 使 用 率 会 维持 在 较 低 水 平 。 失 效 或 出 现 
其 他 问题 的 节点 上 存储 的 数据 块 也 明显 少 于 其 他 节点 。 


Hadoop 提 供 了 一 个 称 为 平衡 器 的 工具 来 解决 这 个 问题 。 我 们 可 以 通过 分 
别 运行 start-balancer.sh 和 stop-balancer.sh 脚本 启用 或 停 用 平 
衡器 。 



































运行 平衡 右 的 时 机 


Hadoop 系 统 中 缺乏 一 种 提醒 用 户 文 件 系 统 已 失衡 的 自动 报警 机 制 。 相 
反 ， 用 户 需 要 自己 留意 hadoop fsck 和 hadoop fsadmin 反馈 的 数 
据 ， 观 察 节 点 间 是 否 存在 失衡 现象 。 


实际 上 ， 用 户 不 必 太 过 担心 这 个 问题 ， 因 为 Hadoop 有 着 完善 的 数据 块 放 
置 俩 略 ， 只 有 妆 新 增 硬 件 或 修复 故障 节点 时 ， 用 户 才 需要 运行 平衡 右 消 
除 主 要 的 失衡 现象 。 但 是 ， 为 了 最 大 程度 地 维护 集群 正 第 运转 ， 人 们 通 
常会 按照 预定 计划 定期 执行 平衡 器 ， 例 如 ， 每 晚 执行 一 次 ， 这 样 会 把 数 
气 块 的 平衡 系数 维持 在 用 户 设 定 的 水 平 上 。 














7.13 MapReduce 管 理 


从 上 一 章 可 以 看 出 ， 一 般 来 讲 ，MapReduce 框 架 比 HDFS 的 容错 能 力 更 
强 。 因 为 JobTracker 和 TaskTracker 不 需要 维护 永久 数据 ， 因 此 ， 对 
MapReduce 的 管理 更 多 的 是 指 对 正在 运行 的 作业 和 任务 的 管理 ， 而 不 是 
维护 框架 本 身 。 


7.13.1 通过 命令 行 管理 作业 


实现 作业 管理 的 主要 工具 是 Hadoop job 命令 行 工 具 。 像 往常 一 样 ， 输 
入 下 列 命令 获取 其 使 用 说 明 。 


$ hadoop job --help 


该 命令 的 大 部 分 选项 都 无 需 解 释 。 它 支持 局 动 、 终 止 、 列 出 运行 中 的 作 

业 ， 以 及 修改 运行 中 的 作业 。 此 外 ， 还 可 以 通过 该 命令 查询 作 业 的 历史 

状态 。 下 市 内 容 不 会 逐一 解释 这 些 选 项 ， 而 是 通过 在 一 个 例子 中 练习 多 
个 子 命令 来 研究 其 用 法 。 








一 展 喘 手 : 通过 命令 行 管理 作业 


使 用 MapReduce 的 网 页 用 户 接 口 也 可 以 访问 部 分 上 述 功 能 。 研 究 一 下 
9 网 页 用 户 接口 ， 弄 清楚 用 户 通 过 该 接口 可 以 实现 和 无 法 实 
现 哪些 功能 


7.13.2 ”作业 优先 级 和 作业 调度 


截至 上 日前， 我 们 通常 只 在 集群 中 运行 一 个 作业 并 等 至 其 运行 结束 。 这 整 

手 盖 了 一 个 重要 事实 : 默认 情况 下 ，Hadoop 将 提交 的 后 续 作 业 放 入 一 

个 FIFO (First In, First Out， 先 入 先 出 的 队列 ) 。 在 一 个 作业 结束 后 ， 

Hadoop 会 启动 队列 中 的 下 一 个 作业 。 除非 我 们 选用 了 后 面 几 节 会 讲 到 的 

A 采用 先入 先 出 调度 算法 的 集群 专用 于 处理 正在 运行 的 
| \ 收 。 











对 于 很 少 有 作业 排队 等 候 运行 的 小 集群 来 说 ， 这 种 方式 完全 没 问 题 。 但 
是 ， 如 果 队 列 中 经 党 有 一 些 作业 在 等 得 执行 机 会 ， 便 会 产生 问题 。 特 别 
是 ，FIFO 调 度 模 型 没有 考虑 作业 优先 级 或 者 作业 所 需 的 资源 。 一 个 运行 
时 间 较 长 但 优先 级 较 低 的 作业 会 先 于 运行 时 间 较 短 而 优先 级 较 高 的 作业 
运行 ， 仅 仅 因 为 前 者 的 提交 时 间 早 于 后 者 。 


为 了 解决 这 个 问题 ，Hadoop 定 义 了 5 种 不 同 程度 的 作业 优先 级 ， 它 们 分 
别 是 : VERY_HIGH 、HIGH 、 NORMAL 、LOW 和 VERY_LOW 。 作 业 的 默认 
优先 级 是 NORMAL ， 但 可 以 通过 hadoop job -set-priority 命令 修改 
人 








7.14 ”实践 环节 : 修改 作业 优先 级 并 结束 作业 运行 


接 下 来 ， 我 们 会 动态 修改 作业 优先 级 ， 并 观 岁 强制 结束 正在 运行 的 作业 
后 ， 哪 个 作业 会 得 到 执行 机 会 。 


1. 在 集群 上 局 动 一 个 需要 运行 很 长 一 段 时 间 的 作业 。 


$ hadoop jar hadoop-examples-1.60.4.jar pi 166 1666 








2. 打开 另 一 个 窗口 并 提交 第 二 个 作业 。 


$ hadoop jar hadoop-examples-1.60.4.jar wordcount test.txt out1 








3. 打开 男 一 个 窗口 并 提交 第 三 个 作业 。 


$ hadoop jar hadoop-examples-1.60.4.jar wordcount test.txt out2 





4. 列 出 正在 运行 的 作业 。 


$ Hadoop job -list 





你 会 在 屏幕 上 看 到 下 列 输出 。 





3 jobs currently running 

JobId State StartTime UserName Priority SchedulingInfo 
job 261261111546 6665 1 1326325816671 hadoop NORMAL NA 

job 261261111546 6666 1 1326325938781 hadoop NORMAL NA 

job 261261111546 6667 1 1326325961766 hadoop NORMAL NA 


| 


5. 检查 正在 运行 的 作业 的 状态 。 


$ Hadoop job -status job 2601261111546_ 6665 





你 会 在 屏幕 上 看 到 如 下 输出 。 


Job: job 261261111546_6665 

file: hdfs://head:9666/varVhadoop/mapred/system/ 
Job 261261111546_6665/Job.xml 

tracking URL: http://head:56636/Jjobdetails . 
jsp?jobid=job 261261111546_666 

map() completion: 1.6 

reduce() completion: 6.32666665 

Counters: 18 





6. 把 最 后 提交 的 作业 的 优先 级 提高 为 VERY_HIGH 。 


$ Hadoop job -set-priority job _ 261261111546 6667 VERY_HIGH 





7. 强制 结束 正在 运行 的 作业 。 


$ Hadoop job -kill job 261261111546_6665 





8. 观 罕 其 余 作 业 ， 看 哪个 作业 开始 运行 。 
原理 分 析 
我 们 在 集群 上 局 动 了 一 个 作业 ， 并 连续 提交 另 两 个 作业 ， 使 它们 处 于 排 


队 等 候 状 态 。 然 后 通过 hadoop job -1ist 命令 确认 队列 中 的 作业 顺序 
和 我 们 的 预期 一 致 。hadoop job-1list all 命令 会 列 出 所 有 已 完成 作 
业 和 目前 正在 运行 的 作业 ， 而 hadoop job -history 会 允许 我 们 更 详 
细 地 检查 作业 及 其 任务 的 信息 。 为 了 确认 已 提交 作业 处 于 运行 状态 ， 我 
们 使 用 hadoop job -status 获取 作业 中 map 和 reduce 任 务 的 完成 进 
度 ， 以 及 作业 计数 器 的 状态 。 


接着 ， 我 们 使 用 hadoop job -set-priority 提高 队列 中 最 后 一 个 作 
业 的 优先 级 。 


使 用 hadoop job -kill 命令 强制 结束 正在 运行 的 作业 后 ， 我 们 确认 下 
元 个 要 到 名 的 是 刚 提升 优先 级 的 作业 ， 即 使 久 在 队列 中 的 作业 的 提交 时 
间 要 比 它 早 。 


男 一 种 调度 絮 


手动 修改 FIFO 队 列 中 作业 的 优先 级 的 办 法 确实 有 效 ， 但 它 需 要 主动 监测 
并 管理 作业 队列 。 和 仔细 想 想 这 个 问题 ， 我 们 友 现 出 现 这 种 局 面 的 原因 在 
于 Hadoop 将 集群 资源 全 部 分 配给 了 正在 执行 的 单个 作业 。 


Hadoop 提 供 了 另外 两 种 作业 调度 器， 它们 采用 了 不 同 的 方法 ， 可 以 在 多 
个 同时 运行 的 作业 之 间 共 享 集群 。Hadoop 还 提供 了 一 种 添加 额外 调度 器 
的 插件 机 制 。 请 注意 ， 资 源 共 盏 是 一 个 在 概念 上 简单 ， 而 在 实现 上 非 闻 
复杂 的 问题 ， 很 多 学 术 研 究 集中 在 这 个 领域 。 其 目标 不 光 是 在 特定 时 间 
点 提高 资源 分 配 率 ， 并 且 要 在 一 段 时 间 内 优先 运行 具有 较 高 优先 级 的 作 


业 。 























1. 计算 能 力 调度 器 





计算 能 力 调度 器 采用 多 个 作业 队列 ， 每 个 队列 都 会 获得 一 部 分 集群 资 
源 。 用 户 提 交 的 作业 会 分 别 出 现 在 各 个 队列 中 。 例 如 ， 用 户 可 以 为 运行 
时 间 较 长 的 作业 维护 一 个 较 大 的 队列 ， 并 为 它 分配 90% 的 集群 资源 ， 同 
时 为 优先 级 较 高 的 作业 维护 一 个 较 小 的 队列 ， 并 为 该 队列 分 配 10% 的 集 
群 资源 。 如 宁 每 个 队列 中 都 有 一 些 待 执 行 的 已 提交 作业 ， 集 群 资源 就 按 
此 比例 进行 分 配 。 


但 是 ， 如 果 一 个 队列 中 的 所 有 作业 都 已 执行 完毕 ， 而 另 一 个 队列 中 还 有 





符 执 行 的 作业 ， 计 算 能 力 调度 喜 会 暂时 将 空 队 列 的 资源 分 配给 忙 队 列 。 
一 旦 作业 被 提交 至 空 队列 ， 该 队列 在 完成 正在 运行 的 作业 之 后 会 再 次 获 
得 其 原 有 容量 。 该 方法 在 提高 资源 分 配 率 和 防止 资源 长 期 闲置 这 两 个 方 
面 取 得 了 合理 的 平衡 。 

计算 能 力 调度 器 为 各 队列 实现 了 优先 级 功能 ， 尽 管 默 认 情 况 下 ， 这 一 功 


能 是 蔡 用 的 。 即 使 高 优先 级 作业 的 提交 时 间 晚 于 低 优先 级 作业 ， 系 统 会 
在 出 现 可 用 计算 资源 时 优先 执行 高 优先 级 作业 。 














2. 公平 调度 器 


公平 调度 需 把 整个 集群 分 割 成 大 干 个 资源 池 ， 系 统 将 用 户 提交 的 作业 
分 配 到 各 个 资源 池 中 ， 并 且 通 党 用 户 和 资源 池 之 间 存 在 某 种 关联 。 尺 管 
默认 情况 下 ， 各 个 资源 池 获 得 份额 相等 的 集群 资源 ， 但 我 们 可 以 修改 资 
源 分 配 比例 。 


在 各 资源 池 中 ， 默 认 模 式 是 所 有 提交 到 该 池 的 作业 都 共 诗 其 资源 。 因 

此 ， 假 设 集群 被 分 成 Alice 和 Bob 两 个 资源 池 ， 其 中 每 个 池 中 都 有 3 个 作 
业 ， 那 么 集群 会 并 行 执行 这 6 个 作业 。 用 户 可 以 限制 资源 池 中 并 行 作业 
的 总 数 ， 因 为 同时 运行 太 多 作业 会 产生 大 量 临时 数据 ， 总 的 来 说 会 降低 
作业 的 运行 效率 。 


与 计算 能 力 调 度 需 一 样 ， 假 如 茶 个 资源 池 中 的 所 有 作业 都 已 执行 完毕 ， 
公平 调度 器 就 会 将 该 池 的 集群 资源 分 配给 其 他 资源 池 ， 并 在 该 池 重 新 收 
到 作业 时 收回 上 自己 的 资源 。 它 也 文 持 作 业 优 先 级 ， 它 会 优先 安排 执行 高 
优先 级 作业 ， 而 不 管 它 的 提交 时 间 是 否 早 于 低 优 先 级 作业 。 

















3. 局 用 蔡 代 调度 器 


Hadoop 安 装 路 径 下 的 contrib 路 径 中 包括 两 个 名 

为 capacityScheduler 和 fairSscheduler 的 子 目 录 ， 其 中 包含 一 些 以 
JAR 文 件 形 式 存在 的 蔡 代 调度 器 。 为 了 局 用 奉 代 调度 器 ， 要 么 将 其 JAR 
文件 添加 到 hadoop/1ib 目录 下 ， 要 么 明确 地 在 classpath 中 加 入 文件 位 
和 
更 站 细 > 言 妃 。 





4. 何 时 使 用 蔡 代 调度 器 


答 代 调度 需 非 常 有 用 ， 但 在 小 规模 集群 、 无 需 并 发 运行 多 个 作业 的 集群 
或 者 无 需 保证 优先 执行 高 优先 级 作业 的 情况 下 ， 并 不 需要 使 用 蔡 代 调度 
人 锅 。 每 个 调度 器 都 有 多 个 配置 人 参数， 用户 需要 调整 这 些 参数 以 达到 集群 
资源 的 最 佳 利 用 率 。 但 对 有 着 多 个 用 户 和 多 种 作业 优先 级 的 大 规模 集 
群 ， 蔡 代 调 度 器 必 不 可 少 。 








7.15 ”扩展 集群 规模 

目前 ， 用 户 已 经 搭建 了 一 个 Hadoop 人 集群， 并 用 它 来 处 理 手 头 的 数据 。 但 
是 ， 随 着 数据 越 来 越 多 ， 需 要 更 多 的 集群 资源 来 处 理 这 些 数据 。 我 们 曾 
经 反复 说 过 ，Hadoop 是 一 个 易 扩 展 系 统 。 接 下 来 ， 我 们 将 扩展 集群 ， 提 
升 其 计算 能 力 。 

7.15.1 ”提升 本 地 Hadoop 和 集群 的 计算 能 
我 希望 读者 不 要 担心 如 何 为 正在 运行 的 集群 新 增 节 点 这 个 问题 。 在 第 6 
章 中 ， 我 们 不 断 地 杀 死 节点 并 重启 。 与 之 相 比 ， 新 增 节 点 并 没有 什么 
特别 之 处 ， 用 户 只 需 执行 下 列 步骤 即 可 。 

1. 在 主机 上 安装 Hadoop。 

2. 按照 第 2 章 中 讲 到 的 步骤 设置 环境 变量 。 

3. 把 配置 文件 揽 贝 到 安装 路 径 下 的 conf 目录 中 。 


4. 把 主机 的 DNS 名 或 耻 地 址 加 到 slaves 文件 中 ， 该 文件 位 于 用 户 执 
行 slaves.sh 、start-all.sh 或 stop-all.sh 的 节点 上 。 


这 就 是 所 需 的 全 部 步骤 。 














一 展映 手 : 加 入 新 节点 并 运行 平衡 天 


笠 试 在 集群 中 新 增 一 个 节点 ， 事 后 检查 HDFS 状 态 。 如 果 HDFS 处 于 失衡 
状态 ， 运 行 平衡 器 修复 失衡 现象 。 为 了 让 这 种 效果 更 明显 ， 可 以 在 新 增 
节点 之 前 ， 先 在 HDFS 上 存储 大 量 数 据 。 


7.15.2 ”提升 EMR 作 业 流 的 计算 能 
如 果 用 户 使 用 的 是 弹性 MapReduce， 对 非 持 久 性 集群 而 言 ， 并 不 存在 扩 


展 集群 规模 的 概念 。 因 为 在 设置 作业 流 时 ， 用 户 就 指定 了 所 需 的 主机 数 
和 主机 类 型 ， 用 户 只 需 保 证 集群 规模 与 竺 执行 的 作业 相 匹配 即 可 。 











扩展 正在 运行 的 作业 流 


但 是 ， 有 时 用 户 希 望 尽 快 执行 完 一 个 所 需 时 间 较 长 的 作业 。 在 这 种 情况 
下 ， 用 户 需 要 为 处 于 运行 状态 的 作业 流 加 入 更 多 节点 。 回 想 一 下 ，EMR 
有 3 种 不 同类 别 的 节点 : 运行 NameNode 和 JobTracker 的 主 节 点 ， 运 行 
HDFS 的 核心 节点 ， 以 及 运行 MapReduce 人 作业 的 任务 节点 。 在 此 情况 

用 户 可 以 为 作业 流 新 增 任务 节点 到 达 更 快 执 行 MapReduce 作 业 的 目 


男 一 种 情况 是 ， 用 户 定 义 的 作业 流 包括 一 系列 而 不 只 是 一 个 MapReduce 
作业 。EMR 人 允许 分 别 修 改 各 个 作业 流 的 配置 。 这 样 做 的 好 处 是 ， 为 每 个 
作业 提供 了 量 喘 定制 的 硬件 配置 ， 能 够 更 好 地 控制 性 能 和 成 本 ， 在 二 者 
之 间 取 得 平衡 。 


标准 的 EMR 数 据 处 理 模 型 是 ， 作 业 流 从 S3 读 取 源 数据 ， 在 临时 的 EMR 
Hadoop 集 群 上 处 理 这 些 数据 ， 然 后 再 把 结果 写 回 到 S3。 但 是 ， 如 果 用 
户 的 数据 集 规模 很 大 而 且 需 要 频繁 处 理 ， 反 复 拷贝 数据 是 一 项 非常 耗 时 
的 工作 。 在 这 种 情况 下 ， 可 以 使 用 另 一 种 模型 ， 那 就 是 在 作业 流 中 使 用 
一 个 持久 性 的 Hadoop 集 群 ， 为 其 配备 足够 多 的 核心 节点 从 而 在 HDFS 存 
储 所 需 数据 。 在 处 理 数据 时 ， 像 刚才 说 的 那样 通过 为 作业 流 分 配 更 多 任 
务 市 点 达到 提升 计算 能 力 的 目的 。 


提示 : 目前 ，AWS 控 制 台 不 支持 为 正在 运行 的 作业 流 调整 集群 规 
模 ， 用 户 需 要 通过 API 或 命令 行 工具 实现 这 一 功能 。 














7.16 ”小 结 


本 半 讲 述 了 如 何 搭 建 、 维 护 和 扩展 Hadoop 集 群 。 特 别 是 ， 我 们 知道 了 哪 
个 文件 设置 了 Hadoop 配 置 属性 的 默认 值 ， 以 及 如 何 通 过 编写 代码 实现 作 
业 级 的 属性 设置 。 我 们 也 学 习 了 如 何 为 集群 选 配 硬件， 购买 硬件 之 前 评 
估 工 作 负 载 的 重要 意义 ， 以 及 Hadoop 如 何 获得 主机 所 处 机 柜 的 物理 位 
置 ， 从 而 优化 数据 块 放置 策略 。 


接着 ， 我 们 了 解 了 默认 的 Hadoop 安 全 模型 的 工作 原理 ， 它 的 弱点 以 及 应 
对 之 策 。 我 们 还 学 习 了 如 何 降低 NameNode 的 故障 风险 〈 见 第 6 章 ) ， 如 
何在 灾难 效 来 之 时 将 NameNode 迁 移 到 一 台新 主机 。 我 们 也 学 习 了 数据 
块 副本 放置 策略 ， 集 群 失衡 的 原因 以 及 如 何 应 对 集群 的 失衡 状态 。 


我 们 还 研究 了 Hadoop 提 供 的 MapReduce 作 业 调 度 模型 ， 学 习 了 作业 优先 
级 如 何 改 变 作业 执行 顺序 ， 计 算 能 力 调度 器 和 公平 调度 器 如 何以 更 复杂 
的 方式 为 多 个 并 发 作业 分 配 集群 资源 ， 以 及 如 何 扩展 集群 以 提高 其 计算 


能 力 。 


本 书 对 Hadoop 核 心 内 容 的 研究 到 此 为 止 。 在 其 余 章节 中 ， 我 们 会 接触 
一 些 建立 在 Hadoop 基 础 上 的 其 他 系统 和 工具 ， 它 们 可 以 帮助 用 户 更 精细 
地 理解 数据 ， 并 与 其 他 系统 协同 工作 。 在 下 一 章 中 ， 我 们 将 学 习 使 用 

Hive， 用 类 似 关 系数 据 库 的 概念 处 理 HDFS 上 的 数据 。 





第 8 章 ”Hive: 数据 的 关系 视图 


MapReduce 是 一 个 功能 强大 的 数据 处 理 范 式 ， 能 从 复杂 的 数据 处 理 过 
程 中 凝练 出 宝贵 的 结论 。 但 是 ， 它 把 数据 人 处理 分 析 过 程 拆 分 成 一 系列 
map 和 和 reduce 阶 段 ， 需 要 用 户 接 受 这 种 理念 ， 进 行 相应 的 训练 并 有 一 
定 的 经 验 。 借 助 一 些 建立 在 Hadoop 基 础 上 的 产品 ， 用 户 能 从 更 高 或 更 
熟人 悉 的 角度 理解 存储 在 HDFS 上 的 数据 。 本 章 将 介绍 其 中 最 流行 的 一 
蒜 工 具 ， 它 就 是 Hive。 








本 章 包 括 以 下 内 容 : 
。 什么 是 Hive 以 及 使 用 Hive 的 原因 ; 
。 如 何 安装 并 配置 Hive; 


使 用 Hive 对 UFO 数 据 集 执行 类 SQL 分 析 ; 

Hive 与 关系 数据 库 的 共同 特点 ， 如 联结 和 视图 ; 
怎样 有 效 地 将 Hive 应 用 于 特大 数据 集 ; 

Hive 如 何在 查询 语句 中 融入 用 户 自 定义 函数 ; 
Hive 与 另 一 款 常用 工具 Pig 的 互补 关系 。 





8.1 Hive 概 述 


Hive 是 建立 在 Hadoop 基 础 上 的 数据 仓库 ， 它 使 用 MapReduce 对 存储 于 
HDFS 上 数据 进行 分 析 。 它 专门 定义 了 一 种 类 SQL (Structured Query 
Language) 碍 询 语言 ， 我 们 称 之 为 HiveQL 。 


8.1.1 为 什么 使 用 Hive 


在 第 4 章 中 ， 我 们 介绍 了 Hadoop Streaming。 它 的 一 个 最 大 优势 在 于 缩 
短 了 MapReduce 作 业 的 开发 周期 。Hive 可 以 进一步 缩短 开发 周期 。 它 没 
有 提供 更 快 地 开发 map 和 reduce 任 务 的 方法 ， 而 是 定义 了 一 种 类 SQL 碍 
询 语言 。Hive 使 用 HiveQL 语 句 表述 查询 操作 ， 并 立刻 将 其 自动 转化 成 
一 个 或 多 个 MapReduce 作 业 ， 然 后 执行 这 些 MapReduce 程 序 并 将 结果 反 
馈 给 用 户 。Hapoop Streaming 缩 短 了 “编码 /编译 /提交 ”的 开发 周期 ， 而 
Hive 则 完全 据 弃 了 这 一 过 程 ， 只 需 构 造 HiveQL 语 句 即 可 。 


Hadoop 的 这 个 接口 不 仅 加 速 了 从 分 析 数 据 到 生成 结果 的 过 程 ， 而 且 明显 
拓宽 了 Hadoop 和 MapReduce 的 使 用 人 和 群 。 用 户 要 想 使 用 Hadoop， 需 要 首 
先 学 握 软件 开发 技术 。 而 现在 ， 任 何 熟 悉 SQL 的 用 户 都 可 以 使 用 Hive。 


因为 Hive 同 时 具备 上 述 特 性 ， 用 户 经 常用 它 进行 业务 和 数据 分 析 ， 并 对 
存储 在 HDFS 上 的 数据 执行 特殊 查询 。 直 接 使 用 MapReduce 需 要 在 执行 
作业 前 编写 map 和 reduce 任 务 ， 这 束 意 味 着 ， 从 最 初 产生 某 种 查询 想法 
到 实现 该 想法 的 过 程 会 产生 无 法 避免 的 延迟 。 而 使 用 Hive， 用 户 只 需 编 
写 精 炼 的 HiveQL 碍 询 语句 就 可 直接 进行 数据 分 析 工 作 ， 不 再 需要 软件 
开发 人 员 一 直 参 与 数据 分 析 过 程 。 当 然 ，Hive 技 术 在 操作 层面 也 存在 一 
些 实际 的 限制 (不 管 该 技术 功能 多 么 强大 ， 糟 粽 的 查询 语句 的 执行 效率 
很 低 ) 。 但 其 适用 范围 广 ， 这 一 点 还 是 很 吸引 人 的 。 























8.1.2 ”感谢 Facebook 


我 们 为 Google、Yahoo! 和 Doug Cutting 对 Hadoop 的 杰出 贡献 深 表 感 
谢 ， 现 在 ， 我 们 必须 衷心 感谢 Facebook。 


最 初 ，Hive 是 由 Facebook 的 数据 组 开发 维护 的 ， 在 Facebook 内 部 使 用 之 
后 ， 它 被 移交 给 Apache 软 件 基金 会 ， 此 后 ， 人 们 可 以 像 使 用 开源 软件 一 





样 免费 使 用 Hive。 它 的 主页 地 址 是 http://hive.apache.org 。 


8.2 ”设置 Hive 

本 节 我 们 将 介绍 如 何 下 载 、 安 装 并 配置 Hive。 

8.2.1 准备 工作 

与 Hadoop 不 同 ，Hive 系 统 中 不 存在 主 节 点 、 从 节点 或 工作 节点 。Hive 以 
客户 问 应 用 程序 的 形式 运行 ， 负 责 处 理 HiveQL 碍 询 ， 将 查询 语句 转化 
为 MapReduce 作 业 ， 并 将 作业 提交 到 一 个 Hadoop 集 群 。 

虽然 Hive 提 供 了 一 种 适用 于 小 作业 和 开发 使 用 的 方式 ， 但 通常 情况 下 ， 
Hive 需 要 一 个 现 有 的 正在 运行 的 Hadoop 集 群 来 配合 运行 MapReduce 作 
业 。 


正如 其 他 Hadoop 客 户 端 不 需要 在 实际 的 集群 节点 上 执行 ，Hive 可 以 在 符 
合 下 列 条 件 的 任何 主机 上 执行 : 


。 安装 了 Hadoop 的 主机 (即使 主机 上 没有 正在 运行 的 进程 〉; 
。 把 HAPOOP_HOME 环境 变量 的 值 设 置 为 Hadoop 安 装 目录 的 主机 ; 


。 系统 路 径 或 用 户 路 径 中 出 现 ${HADOOP_HOME}/bin 目录 的 主机 。 








8.2.2 ”下 载 Hive 


读者 可 以 从 http://hive.apache.org/releases.html 下 载 到 Hive 的 最 新 稳定 版 
本 。 


Hive 入 门 指南 (其 网 址 

为 http://cwiki.apache.org/confluence/display/Hive/GettingStarted ) 会 从 兼 
容 的 角度 为 用 户 推荐 合适 的 版 本 ， 但 一 般 情 况 下 ， 可 以 预见 ，Hive、 
Hadoop 和 Java 的 最 新 稳定 版 应 当 能 够 协同 工作 。 











8.3 ”实践 环节 : 安装 Hive 
接 下 来 ， 我 们 将 安装 并 配置 Hive， 以 便 日 后 使 用 。 





1. 下 载 Hive 的 最 新 稳定 版 本 ， 并 将 其 放 到 安装 目录 下 。 


$ mv hive-6.8.1.tar.gz /usr/local 





2. 解压 安装 包 。 


$ tar -xzf hive-6.8.1.tar.gz 





3. 把 安装 路 径 设 为 变量 HIVE_HOME 的 值 。 


$ export HIVE HOME=/usr/local/hive 





4. 将 HIVE 的 主 目 录 添 加 到 PATH 变 量 中 : 


$ export PATH=${HIVE HOME}/bin:${PATH} 





5. 在 HDFS 上 创建 Hive 所 需 路 径 /tmp 和 /user/hive/warehouse。 


$ hadoop fs -mkdir /tmp 
$ hadoop fs -mkdir /user/hive/warehouse 





6. 修改 上 述 路 径 的 访问 权限 ， 使 用 户 组 具有 写 入 权限 。 


$ hadoop fs -chmod g+w /tmp 
$ hadoop fs -chmod g+w /user/hive/warehouse 





7. 试 着 启动 Hive。 


$ hive 


该 命令 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive- 
0.8.1/1lib/hive-common-6.8.1.jar!/hive-log4j.properties 


Hive history file=/tmp/hadoop/hive job log_ 


hadoop_261263631566 486385673 .txXt 
hive> 





8. 退出 Hive 的 交互 式 shell。 


$ hive> quit; 


原理 分 析 


下 载 到 Hive 的 最 新 稳定 版 安装 包 之 后 ， 我 们 将 其 拷贝 至 安装 位 置 并 解压 
文件 。 这 一 步 会 自动 创建 一 个 名 为 hive-<version> 的 目录 。 


与 之 前 定义 HADOOP_HOME 并 将 安装 目录 下 的 bin 路 径 添 加 到 path 变 量 关 
似 ， 我 们 定义 了 HIVE_HOME 并 将 Hive 的 bin 路 径 添加 至 path 变 量 。 


提示 : 请 记 住 ， 为 了 避免 用 户 每 次 登录 都 要 设置 这 些 变 量 ， 可 以 把 





它们 添加 到 用 户 登 录 的 shell 脚 本 或 一 个 单独 的 配置 脚本 中 ， 这 样 用 户 
使 用 Hive 时 只 需 调用 这 些 脚本 即 可 。 


接着 ， 我 们 在 HDFS 上 创建 了 两 个 Hive 要 用 到 的 目录 ， 并 修改 它们 的 属 

性 ， 使 用 户 组 具有 对 该 目录 的 写 入 权限 。 默 认 情 况 下 ，Hive 会 把 执行 查 
询 语句 产生 的 临时 数据 写 入 /tmp 目录 ， 除 此 之 外 ， 输 出 数据 也 会 被 写 

入 该 目录 。/user/hive/warehouse 目录 则 用 于 存储 写 入 Hive 表 中 的 数 
据 。 


完成 这 些 设置 之 后 ， 我 们 运行 hive 命令 。 如 果 安 装 成 功 的 话 ， 该 命令 
的 输出 与 上 述 输 出 类 似 。 不 带 任何 参数 运行 hive 命 令 ， 全 进入 二 小 父 于 
shell。hive> 提示 符 类 似 于 关系 数据 库 中 的 交互 工具 sql> 或 mysq1l> 。 


接着 ， 我 们 输入 quit; 命令 退出 交互 shell。 一 定 要 注意 末尾 的 分 号 ; 。 
如 前 所 述 ，HiveQL 与 SQL 非常 相似 ， 并 遵循 SQL 中 关于 “所 有 命令 必须 
以 分 号 结束 ”的 约定 。 没 有 输入 分 号 而 按 下 回 车 键 ， 意 味 着 用 户 将 在 下 
一 行 继续 输入 命令 。 




















8.4 使 用 Hive 

成 功 安装 Hive 之 后 ， 我 们 将 用 它 来 分 析 第 4 章 介绍 过 的 UFO 数 据 集 。 

问 Hive 导 入 新 数据 的 过 程 通 常 分 为 以 下 3 个 阶段 。 

1. 定义 表 的 各 个 字段 ， 该 表 将 用 于 导入 数据 。 

2. 把 数据 导入 已 创建 的 表 中 。 

3. 针对 上 表 执 行 HiveQL 查 询 。 

上 述 过 程 与 关系 数据 库 中 的 操作 非常 相似 。Hive 支 持 数据 的 结构 化 查询 
视图 ， 在 执行 任何 查询 之 前 ， 我 们 必须 首先 为 表 的 每 列 定义 规范 并 把 数 
据 导 入 表 中 。 

提示 :， 我 们 假设 读者 较为 熟悉 SQL 语言 ， 所 以 本 章 内 容重 在 介绍 怎样 
使 用 Hive 处 理 数据 ， 而 不 会 详细 解释 SQL 的 某 个 概念 。 不 太 熟 悉 SQL 


语言 的 读者 可 以 在 手边 准备 一 本 SQL 参考 手册 ， 虽 然 我 们 保证 读者 能 
够 理解 每 条 SQL 语句 的 功能 ， 但 有 些 语句 的 细节 可 能 需要 读者 深入 研 


人 


九 。 





8.5 ”实践 环节 : 创建 UEO 数 据 表 
接 下 来 ， 通 过 下 列 步骤 新 建 一 个 表 ， 并 把 UFO 数 据 导入 该 表 。 


1. 启动 Hive 的 交互 式 shell。 


$ hive 


2. 为 UFO 数 据 集 创建 表 。 为 了 增强 可 读 性 ， 我 们 将 相关 语句 分 成 多 行 


显示 。 


hive> CREATE TABLE ufodata(sighted STRING, reported STRING ， 
sighting _ location STRING， > shape STRING, duration STRING ， 
description STRING COMMENT 'Free text description') 

COMMENT “The UFO data set. ” ; 





输入 上 述 语句 之 后 ，Hive 的 输出 结果 如 下 所 示 。 


OK 
Time taken: 6.238 seconds 





3. 列 出 所 有 现 有 表 。 


hive> show tables; 





该 命令 的 执行 结果 如 下 所 示 。 


OK 
ufodata 


Time taken: 6.156 seconds 





4. 显示 与 正则 表达 式 “.*data” 逻 配 的 表 。 


hive> show tables '.*data'; 





该 命令 的 执行 结果 如 下 所 示 。 


ufodata 
Time taken: 0.065 seconds 





5. 验证 表 中 各 字段 的 定义 。 


hive> describe ufodata; 





该 命令 的 执行 结果 如 下 所 示 。 


sighted string 

reported string 

sighting location string 
shape string 


duration string 
description string Free text description 
Time taken: 6.686 seconds 





6. 更 详细 地 显示 对 表 的 描述 。 


hive> describe extended ufodata; 





该 命令 的 执行 结果 如 下 所 示 。 


sighted string 
reported string 


Detailed Table Information Table(tableName:ufodata, 
dbName:default, owner:hadoop, createTime:1336818664, 
lastAccessTime:60, retention:0@, 


.location:hdfs://head:9600/user/hive/warehouse/ 

ufodata, inputFormat:org.apache.hadoop.mapred. 
TextInputFormat,outputFormat:org.apache.hadoop.hive.ql.io. 
HiveIgnoreKeyTextOutputFormat, compressed:false, numBuckets:-1, 





原理 分 析 


启动 Hive 交 互 程 序 后 ， 我 们 用 CREATE TABLE 命令 来 定义 UFO 数 据 表 的 
结构 。 和 标准 SQL 一 样 ，HiveQL 要 求 为 表 中 的 每 列 指定 列 名 和 数据 类 
型 。HiveQL 还 可 以 为 每 列 和 整个 表 加 入 可 选 注 释 ， 上 例 中 ， 我 们 

为 “description” 列 和 全 表 加 入 了 注释 。 


针对 UFO 数 据 ， 我 们 定义 该 表 中 所 有 字段 的 数据 类 型 为 STRING 。 和 
SQL 一 样 ，HiveQL 也 支持 多 种 数据 类 型 。 


。 布尔 类 型 : BOOLEAN 





e。 整数 类 型 TINYINT 、INT 、BIGINT 


。 浮 点 类 型 : FLOAT 、DOUBLE 
。 文本 类 型 : STRING 


创建 表 之 后 ， 使 用 SHOW TABLES 语句 来 确认 表 已 经 创建 成 功 。 该 命令 
会 列 出 系统 中 所 有 的 表 ， 在 我 们 这 个 例子 中 ， 系 统 中 只 有 一 个 UFO 表 。 


接着 ， 我 们 使 用 SHOW TABLES 语句 的 变 体 ， 该 语句 附带 了 一 个 可 选 的 
JAVA 正则 表达 式 ， 用 于 列 出 与 正则 表达 式 匹 配 的 所 有 表 。 本 例 中 ， 和 输 
出 结果 与 上 个 命令 完全 相同 ， 但 当 系 统 中 存在 许多 表 的 时 候 ， 尤 其 是 不 
知道 表 的 准确 名 称 的 时 候 ， 这 种 变 体 非常 有 用 。 


提示 : 我 们 已 成 功 创建 了 表 ， 但 还 没有 验证 该 表 的 结构 是 否 合理 。 
下 一 步 ， 我 们 将 使 用 DESCRIBE TABLE 命令 显示 特定 表 的 详细 信息 。 
我 们 看 到 ， 所 有 字段 都 和 预期 相同 (尽管 该 命令 不 能 返回 表 的 注释 信 
息 ) 。 接 下 来 ， 我 们 使 用 DESCRIBE TABLE EXTENDED 命令 获取 该 表 
的 更 多 信息 。 


上 例 中 ， 我 们 略 去 了 最 终 输 出 数据 的 大 部 分 内 容 ， 仅 展示 其 中 有 意思 的 
一 小 部 分 。 请 注意 ， 输 入 格式 被 指定 为 TextInputFormat 。 默 认 情 况 
下 ，Hive 假 设 插入 表 中 的 所 有 HDFS 文 件 都 以 文本 文件 的 形式 存在 。 


同时 ， 我 们 还 观 凤 到 ， 表 数据 存储 在 之 前 创建 的 HDFS 目 


录 /user/hive/warehouse 下。 
技巧 : 关于 字符 大 小 写 的 提示 


就 像 SQL 一 样 ，HiveQL 对 关键 词 、 列 名 、 表 名 中 的 字符 不 区 分 大 小 

写 。 按 照 惯 例 ，SQL 语 句 中 的 关键 词 使 用 大 写字 坪 ， 我 们 通常 会 在 编 
写 脚 本 文件 中 的 HiveQL 语 句 时 遵照 这 个 惯例 ， 稍 后 会 在 具体 示例 中 

看 到 。 但 是 ， 在 输入 交互 式 命令 时 ， 我 们 通常 会 选用 最 简单 的 方式 

一 一 使 用 小 写字 符 。 




















8.6 ”实践 环节 : 在 表 中 插入 数据 


上 一 市 我 们 完成 了 表 的 创建 工作 ， 接 下 来 ， 我们 将 把 UFO 数 据 导 
入 ufodata 表 。 


1. 将 UFO 数 据 文件 找 贝 至 HDFS。 


$ hadoop fs -put ufo.tsv /tmp/ufo.tsv 





2. 确认 文件 已 成 功 复制 到 HDFS 。 


$ hadoop fs -1s /tmp 





上 述 命令 的 结果 如 下 所 示 。 


Found 2 items 

drwxrwxr-x - hadoop supergroup 0 . 14:52 /tmp/hive- 

hadoop 

-rw-r--r-- 3 hadoop supergroup 75342464 2612-63-63 16:61 /tmp/ 


Ufo .tsVv 





3. 进入 Hive 交 互 式 shell。 


$ hive 


4. 把 步骤 1 复制 到 HDFS 的 文件 数据 插入 ufodata 表 中 。 


hive> LOAD DATA INPATH '/tmp/ufo.tsv' OVERWRITE INTO TABLE 
ufodata; 


| 


上 述 命令 的 结果 如 下 所 示 。 


Loading data to table default.ufodata 
Deleted hdfs://head:9666/user/hive/warehouse/ufodata 


OK 
Time taken: 5.494 seconds 





5， 退出 Hive shell。 


hive> quit; 


6. 检查 HDFS 上 存放 UFO 数 据 副 本 的 目录 。 


$ hadoop fs -ls /tmp 





上 述 命令 的 结果 如 下 所 示 。 


Found 1 items 


drwxrwxr-x - hadoop supergroup 0 . 16:16 /tmp/hive- 
hadoop 





原理 分 析 


首先 ， 我 们 把 第 4 章 中 用 到 的 以 tab 刍 分隔 的 UFO 数 据 文件 拷贝 至 
HDFS。 确 认 HDFS 上 存 有 文件 数据 后 ， 我 们 启动 Hive 交 互 shell 并 用 LOAD 


DATA 命令 将 文件 数据 载 入 ufodata 表 。 


因为 我 们 使 用 的 文件 已 经 放 到 了 HDFS 上 ， 所 以 单独 使 用 INPATH 关键 词 
来 指定 源 文件 的 位 置 。 我 们 还 可 以 通过 LOCAL INPATH 指定 位 于 本 地 文 
件 系 统 上 的 源 文件 ， 将 它 直接 导入 Hive 表 中 。 这 样 就 不 必 明 确 地 将 本 地 
文件 系统 上 的 源 文 件 拷贝 到 HDFS 。 


在 把 UFO 数 据 导 入 ufodata 表 的 Hive 语 句 中 ， 我 们 指定 了 OVERWRITE 
关键 词 ， 它 会 在 导入 新 数据 前 删除 表 中 原 有 数据 。 从 该 命令 的 执行 结果 
有 ， 使 用 OVERWRITE 会 把 存放 表 数 据 的 目录 清空 ， 因 此 要 谨慎 使 
用 该 语句 。 


请 注意 ，Hive 系 统 用 了 5 秒 多 时 间 来 执行 该 命令 ， 明 显 多 于 把 UFO 数 据 
文件 找 贝 至 HDFS 的 时 间 。 


提示 : 虽然 我 们 在 本 例 中 明确 使 用 了 一 个 产 文 件 ， 但 我 们 通过 指定 
一 个 目录 作为 INPATH 的 参数 ， 使 用 一 条 LOAD 命 令 导入 多 个 文件 。 
在 这 种 情况 下 ， 目 录 中 的 所 有 文件 都 会 导入 到 表 中 。 


退出 Hive shell 之 后 ， 我 们 再 次 查看 刚刚 存放 ufo 数 据 文件 副本 的 目录 ， 
结果 发 现 该 目录 已 被 删除 。 如 果 传 给 LOAD 语句 的 是 HDFS 上 的 数据 路 
径 ， 那 么 LOAD 语句 不 光 会 将 数据 复制 到 /user/hive/datawarehouse 
， 同 时 也 会 删 掉 其 原始 目录 。 如 果 读 者 想 分 析 HDFS 上 被 其 他 程序 使 用 
的 数据 ， 要 么 备份 一 个 副本 ， 要 么 使 用 后 面 将 讲 到 的 EXTERNAL 方案 。 


验证 数据 
在 将 数据 导入 Hive 表 之 后 ， 一 种 好 的 做 法 是 ， 立 刻 进 行 一 些 快速 验证 碍 


询 ， 以 确定 所 建 的 表 及 表 中 数据 和 预期 一 致 。 有 时 候 ， 通 过 验证 查询 发 
现 ， 表 的 初始 定义 就 是 错误 的 。 











8.7 ”实践 环节 : 验证 表 


进行 初步 验证 的 最 简 蛙 方法 残 是 ， 执 行 一 些 统计 查询 以 验证 导入 数据 是 
否 正确 。 这 与 第 4 章 使 用 Hadoop Streaming 执 行 的 任务 类 似 。 


1. 在 hive 命令 行 工 具 中 输入 以 下 HiveQL 语 句 ， 它 会 统计 表 中 的 记录 
总 数 ， 记 得 不 要 使 用 Hive shell。 


$ hive -e "select count(*) from ufodata;" 





该 命令 的 执行 结果 如 下 所 示 。 


Total MapReduce jobs = 1 
Launching Job 1 out of 1 


Hadoop job information for Stage-1: number of mappers: 1; number 
of reducers: 1 

2012-603-603 16:15:15,5106 Stage-1 map 0%， reduce = 
2012-603-03 16:15:21,552 Stage-1 map 166%， reduce 
2012-603-03 16:15:36,622 Stage-1 map 166%， reduce 

Ended Job = job_ 2061262281524 6666 

MapReduce Jobs Launched : 

Job 6: Map: 1 Reduce: 1 HDFS Read: 75416269 HDFS Write: 
SUCESS 

Total MapReduce CPU Time Spent: 6 msec 

OK 

61393 

Time taken: 28.218 seconds 





2. 作为 示例 ， 从 sighted 列 选取 5 个 值 。 


$ hive -e "select sighted from ufodata limit 5;" 





该 命令 的 执行 结果 如 下 所 示 。 


Total MapReduce jobs = 
Launching Job 1 out of 


1 
1 


OK 

19951669 19951669 Iowa City, IA Man repts. witnessing 
&quot;flash, followed by a classic UFO, w/ a tailfin at 

back.&quot; Red color on top half of tailfin. Became triangular. 
19951616 19951611 Milwaukee, WI 2 min. Man on Hwy 43 
of Milwaukee sees large, bright blue light streak by his car， 

descend, turn, cross road ahead, strobe. Bizarre! 

199501601 199501603 Shelton, WA Telephoned Report:CA 

woman visiting daughter witness discs and triangular ships over 
Squaxin Island in Puget Sound. Dramatic. Written report, with 
illustrations, submitted to NUFORC. 

19956516 19956516 Columbia, MO 2 min. Man repts. son&apos; 
bizarre sighting of small humanoid creature in back yard. Reptd. 

in Acteon Journal, St. Louis UFO newsletter. 

19956611 19956614 Seattle, WA Anonymous caller repts. 

sighting 4 ufo&apos;s in NNE sky, 45 deg. above horizon. (No other fac 
Time taken: 11.693 seconds 





原理 分 析 


本 例 中 ， 我 们 没有 使 用 Hive 交 互 式 shell， 而 是 直接 在 hive -e 命令 中 使 
用 HiveQL 语 句 。 交 互 式 shell 一 般 用 于 处 理 一 系列 的 Hive 操 作 。 对 一 些 简 
单 的 语句 ， 直 接 把 HiveQL 查 询 语句 传 入 命令 行 工具 更 方便 简洁 。 也 就 
是 说 ， 在 脚本 中 也 可 以 调用 Hive。 


提示 : 当 使 用 hive-e 时 ， 没 必要 再 用 分 号 作为 HiveQL 语 句 的 结 
符 ， 但 有 时 候 很 难 改 掉 这 个 习惯 。 如 果 你 想 在 同一 语句 中 执行 多 个 命 
令 ， 了 束 必须 用 分 号 分 开 这 些 命令 。 


第 一 次 查询 的 结果 是 61393， 与 我 们 之 前 直接 用 MapReduce 分 析 UEFO 数 
据 集 时 得 到 的 结果 是 一 样 的 。 这 表明 整个 数据 集 确 实 已 被 导入 表 中 。 


接着 ， 我 们 执行 了 第 二 次 查询 ， 即 从 表 的 第 一 列 选 取 5 个 值 ， 我 们 希望 
它 返 回 UFO 出 现 的 5 个 具体 日 期 。 但 结果 却 是 5 条 包括 UFO 出 现 日 期 在 内 


的 完整 记录 。 

出 现 这 种 问题 的 原因 在 于 ， 我 们 依靠 Hive 把 数据 文件 以 文本 文件 的 形式 
导入 表 中 ， 却 没有 考虑 各 列 之 间 的 分 隔 符 。 我 们 的 数据 文件 以 tab 作 为 
分 隔 符 ， 但 在 默认 情况 下 ，Hive 认 为 其 输入 文件 的 分 隔 符 是 ASCII 码 
00 (control-A) 。 


by 


8.8 实践 环节 : 用 正确 的 列 分 隔 符 重 定义 表 
下 面 ， 我 们 将 修正 表 规 范 。 
1. 把 下 列 HiveQL 语 句 保 存 为 commands .hql 文件 。 


DROP TABLE ufodata ; 


CREATE TABLE ufodata(sighted string, reported string, sighting locatio 
ROW FORMAT DELIMITED 


FIELDS TERMINATED BY '\t' 


了 


LOAD DATA INPATH '/tmp/ufo.tsv' OVERNRITE INTO TABLE ufodata ; 





2. 把 数据 文件 拷贝 至 HDFS。 


$ hadoop fs -put ufo.tsv /tmp/ufo.tsv 





3. 执行 HiveQL 脚本; 


$ hive -f commands.hql 





该 脚本 的 执行 结果 如 下 所 示 。 


OK 

Time taken: 5.821 seconds 

OK 

Time taken: 6.248 seconds 

Loading data to table default.ufodata 

Deleted hdfs://head:9666/user/hive/warehouse/ufodata 


OK 
Time taken: 6.285 seconds 








4. 验证 表 中 数据 的 总 行 数 。 


$ hive -e "select count(*) from ufodata;" 





该 命令 的 执行 结果 如 下 所 示 。 


OK 
61393 
Time taken: 28.677 seconds 





5. 验证 reported 列 的 内 容 。 


$ hive -e "select reported from ufodata limit 5" 





该 命令 的 执行 结果 如 下 所 示 。 


OK 

19951669 
19951611 
19950103 
19950516 


19950614 
Time taken: 14.852 seconds 





原理 分 析 


本 例 中 ， 我 们 介绍 了 调用 HiveQL 命 令 的 第 三 种 方法 。 除 了 使 用 交互 shell 
或 在 Hive 工 具 中 使 用 查询 语句 ，Hive 还 可 以 从 包含 多 条 Hive 语 句 的 文件 
中 读 取 其 内 容 ， 并 执行 这 些 命令 。 





首先 ， 我 们 创建 了 这 样 一 个 文件 ， 它 先 删除 旧 表 ， 然 后 新 建 一 个 表 ， 并 
把 数据 导入 新 表 。 


新 定义 的 表 规 约 与 前 一 个 的 主要 区 别 在 于 ， 前 者 用 到 了 ROW FORMAT 和 
FIELDS TERMINATED BY 语句 。 这 两 条 语句 都 是 必需 的 : 第 一 条 命令 
告诉 Hive 每 行 数据 包含 多 个 有 界 字 段 ， 而 第 二 条 命令 则 指定 了 真正 的 分 
es a 我 们 既 可 以 用 明确 的 ASCII 码 也 可 以 用 常用 的 \t 符号 
; 不 tab。 


提示 : 在 指定 分 隔 符 的 时 候 要 多 加 小 心 ， 它 必须 准确 无 误 并 且 要 区 
分 大 小 写 。 不 要 因为 大 意 把 \t 误 写 为 \T 而 浪费 几 个 小 时 的 时 间 ， 我 
最 近 就 犯 过 类 似 错误 。 


在 运行 commands .hql 脚本 之 前 ， 我 们 再 次 把 UFO 数 据 文件 复制 到 
HDFS (上 一 个 文件 副本 已 被 DELETE 命令 删除 ) ， 然 后 使 用 hive -f 来 
执行 HiveQL 脚 本 文件 。 


和 之 前 一 样 ， 我 们 接 下 来 执行 两 个 简单 的 SELECT 语句 ， 第 一 条 语句 用 
于 统计 表 中 的 总 行 数 ， 第 二 条 语句 用 于 列 出 某 个 指定 列 的 一 小 部 分 值 。 


不 出 所 料 ， 总 行 数 与 前 一 个 例子 的 结果 一 致 。 与 前 一 个 例子 相 比 ， 第 二 
人 ， 说 明 Hive 按 照 每 行 数据 的 组 成 字段 进行 
了 正确 拆 分 。 


Hive 表 是 个 逻辑 概念 


如 果 读 者 仔细 观察 上 个 例子 中 各 命令 的 运行 时 间 ， 可 能 会 发 现 一 种 看 似 
奇怪 的 现象 。 把 数据 导入 表 所 用 的 时 间 和 创建 表 规 约 所 用 时 间 基 本 一 
样 ， 但 是 ， 统 计 总 行 数 这 样 的 简单 任务 却 用 了 较 长 的 时 间 。 和 输出 结果 也 
表明 ， 表 的 创建 和 数据 导入 并 没有 真正 引起 MapReduce 作 业 的 执行 ， 这 
天 解释 了 为 什么 执行 这 些 任 务 所 用 时 间 较 短 。 


把 数据 导入 Hive 表 的 过 程 不 同 于 我 们 依据 传统 数据 库 经 验 给 出 的 判断 。 
虽然 Hive 把 数据 文件 找 入 工作 路 径 ， 但 事实 上 和 它 并 没有 在 这 个 时 候 将 输 
入 数据 插入 表 中 各 行 。 与 之 相反 ， 它 以 源 数据 为 基础 创建 了 一 批 元 数 
据 ， 后 续 HiveQL 碍 询 将 用 到 这 些 元 数据 。 


如 此 说 来 ，CREATE TABLE 和 LOAD DATA 语句 都 不 会 创建 实际 的 表 数 
































据 ， 只 是 生成 一 些 元 数据 。 当 Hive 使 用 HiveQL 转 换 成 的 MapReduce 作 业 
访问 概念 上 存储 在 表 中 的 数据 时 ， 将 会 用 到 这 些 元 数据 。 


8.9 ”实践 环节 : 基于 现 有 文件 创建 表 


截至 目前 ， 我 们 学 习 了 如 何 把 Hive 有 效 控制 的 文件 数据 直接 导入 Hive 
表 。 然 而 ， 我 们 也 可 以 为 Hive 外 部 文件 数据 创建 表 。 在 需要 使 用 Hive 处 
理 外 部 程序 号 入 和 管理 的 数据 或 数据 存储 于 Hive 仓 库 之 外 的 路 径 的 时 
候 ， 这 种 方法 特别 有 用 。 用 户 不 必 把 这 些 文件 移 到 Hive 仓 库 目 录 下 ， 用 
户 删除 表 时 也 不 会 影响 到 这 些 文 件 的 可 用 性 。 


1. 将 以 下 内 容 存 入 states.sql 脚本 文件 。 








CREATE EXTERNAL TABLE states(abbreviation string, full name string) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ‘'\t' 


LOCATION '/tmp/states' ; 





? 把 数 据 文 件 states ,txt 找 由 到 HDFS， 然 后 确认 该 文件 确实 丰 
Es 


$ hadoop fs -put states.txt /tmp/states/states.txt 
$ hadoop fs -1s /tmp/states 





上 述 命 令 的 执行 结果 如 下 所 示 。 


Found 1 items 
-rw-r--r-- 3 hadoop supergroup 654 2012-63-63 16:54 /tmp/states/ 





3. 执行 HiveQL 脚 本 。 


$ hive -f states.hql 





该 命令 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive-6.8.1/1i 
Hive history file=/tmp/hadoop/hive job_ log hadoop 2861263631655 1132553 
OK 

Time taken: 3.954 seconds 


OK 


Time taken: 6.594 seconds 





4. 检查 源 数 据 文件 。 


$ hadoop fs -1s /tmp/states 





该 命令 的 执行 结果 如 下 所 示 。 


Found 1 items 
-rw-r--r-- 3 hadoop supergroup 654 . /tmp/states/states. 
txt 





5. 对 刚 创 建 的 表 执行 一 次 示例 奋 询 。 


$ hive -e "select full name from states where abbreviation like 
"CA LL 





该 命令 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive-6.8.1/1i 
Hive history file=/tmp/hadoop/hive job_ log hadoop 2861263631655 4169457 
Total MapReduce jobs = 1 


. OK 
California 
Time taken: 15.75 seconds 





| 


原理 分 析 


创建 外 表 的 HiveQL 语 句 和 之 前 使 用 的 CREATE TABLE 语句 格式 稍 有 不 
同 。 关 键 字 EXTERNAL 表明 该 表 存 在 于 Hive 控 制 之 外 的 位 置 ， 同 时 
LOCATION 子 句 指明 了 源 文件 或 源 目 录 的 位 置 。 


在 创建 了 HiveQL 脚 本 之 后 ， 我 们 把 源 数 据 文件 拷贝 至 HDFS。 我 们 使 用 
第 4 章 用 到 的 states 文 件 作为 表 的 源 数 据 ， 该 文件 存储 了 美国 州 名 全 称 与 
双 字 符 缩写 之 则 的 映射 关系 。 


确认 源 文 件 确实 存在 于 HDFS 上 之 后 ， 我 们 执行 查询 语句 来 创建 表 并 再 
次 检查 源 文 件 。 与 上 个 例子 不 同 ， 我 们 没有 把 源 文件 移 

到 /user/hive/warehouse 目录 下 ，states.txt 文件 依然 存在 于 
HDFS 上 的 找 贝 路 径 。 


最 后 ， 我 们 针对 所 创建 的 表 执 行 查询 ， 查 询 结 果 验 证 了 表 中 数据 即 为 源 
数据 。 这 也 突出 了 本 例 与 CREATE TABLE 的 另 一 个 区 别 : 在 上 例 中 非 外 
部 表 的 情况 下 ， 创 建 表 的 语句 不 会 把 数据 插入 表 中 ， 而 是 由 后 续 LOAD 
DATA 或 INSERT 语句 〈 稍 后 介绍 该 语句 ) 向 表 中 插入 数据 。 在 定义 表 时 
Bi 


























现在 ，Hive 中 己 有 两 个 表 ， 较 大 的 表 用 于 存储 UFO 目 击 事件 数据 ， 较 小 
的 表 用 于 存储 美国 州 名 缩写 。 如 果 用 第 二 个 表 的 数据 来 充实 第 一 个 表 的 


location 列 ， 会 不 会 很 有 意义 ? 








8.10 ”实践 环节 : 执行 联结 操作 

SQL 中 经 常用 到 联结 这 一 工具 ， 但 在 新 语言 中 使 用 联结 似乎 不 太 容易 。 
实质 上 ， 联 结 可 以 基于 某 个 条 件 语句 实现 多 表 数据 行 的 罗 辑 组 合 。Hive 
支持 多 种 形式 的 数据 联结 ， 接 下 来 我 们 将 研究 这 些 内 容 。 


1. 把 下 列 内 容 存 入 join.hql 脚本 文件 。 








SELECT t1.sighted, t2.full name 

FROM ufodata t1 JOIN states t2 

ON (LOWER(t2.abbreviation) = LOWER(SUBSTR( t1.sighting location, 
(LENGTH(t1.sighting location)-1)))) 


LIMIT 5 ; 





2. 执行 上 述 查 询 。 


$ hive -f join.hql 





该 命令 的 执行 结果 如 下 所 示 。 


OK 

20660930 Alaska 
260651618 Alaska 
20650707 Alaska 
20160112 Alaska 


20100625 Alaska 
Time taken: 33.255 seconds 





原理 分 析 


实际 上 ， 本 例 实现 的 联络 查询 相对 简单 。 我 们 想 从 一 系列 记录 中 提取 


sighted 和 1location 字 段 ， 但 不 想 使 用 location 字 段 的 原始 数据 ， 而 是 想 把 

该 字段 映射 为 州 名 全 称 。 我 们 创建 的 HiveQL 文 件 执行 的 就 是 这 个 查询 

人 的 JOIN 关键 词 指 定 联结 语句 ， 并 用 ON 子 句 指定 
配 条 件 。 


由 于 Hive 只 文 持 等 联结 ， 也 就 是 说 ，ON 子 句 中 只 能 进行 等 式 检查 ， 受 
此 限制 ， 事 情 变 得 有 些 复杂 。 联 结语 句 中 的 条 件 子 句 不 能 包含 > 、? 、< 
等 操作 符 ， 以 及 我 们 常用 的 LIKE 关键 字 。 


但 是 ， 我 们 反而 有 机 会 介绍 一 些 Hive 的 内 置 函数 。 尤 其 是 ， 把 字符 串 转 
换 为 小 写字 母 的 LONER 函数 ， 提 取 字 符 串 子 串 的 SUBSTR 函数 ， 以 及 返 
回 字 符 串 中 字符 总 数 的 LENGTH 函数 。 


我 们 知道 ， 大 多 数 location 记 录 采 用 了 “城市 ， 州 名 缩写 ”的 形式 。 所 

以 ， 要 使 用 SUBSTR 提取 字符 串 中 倒数 第 二 个 和 倒数 第 三 个 字符 ， 使 
用 length 计算 字符 串 长 度 。 由 于 我 们 无 法 保证 表 中 的 所 有 记录 都 采用 
了 统一 的 大 小 写 形 式 ， 因 此 还 要 通过 LOWER 函数 把 州 名 缩写 和 提取 到 的 
字符 串 都 转换 成 小 写 形式 。 


在 脚本 执行 完毕 之 后 ， 我 们 发 现 输 出 结果 与 预期 一 致 ， 它 的 确 包含 了 目 
击 事件 的 发 生日 期 ， 并 用 州 名 全 称 取代 了 州 名 缩写 。 


请 注意 ，LIMIT 子 句 限制 了 输出 的 查询 结果 中 包含 的 行 数 。 这 也 表明 ， 
HiveQL 与 SQL 的 某 些 字 词 非常 相似 ， 这 些 字 词 也 被 MySQL 之 类 的 开源 
数据 库 所 采纳 。 


本 例 展示 了 内 部 联结 的 用 法 。 除 此 之 外 ，Hive 还 文 持 左 外 联结 、 右 外 联 
结 和 左 半 联结 。 如 何在 Hive 中 使 用 联结 ， 其 中 包含 很 多 微妙 之 处 ， 如 前 
述 等 联结 限制 。 如 有 果 读 者 要 用 到 联结 ， 尤 其 是 在 非常 大 的 表 中 使 用 联结 
时 ， 应 该 首先 通读 位 于 Hive 主 页 的 文档 。 


提示 : ”我们 不 是 要 批判 Hive。 联 结 工具 的 功能 非常 强大 ， 但 公正 地 
说 ， 与 其 他 类 型 的 SQL 查询 操作 相 比 ， 编 号 糟糕 的 联结 或 者 忽视 了 某 
些 关 键 约 束 条 件 的 联结 会 更 多 地 导致 关系 数据 库 中 止 运行 。 














一 展 身 手 : 使 用 正则 表达 陈 改 进 联络 


除了 刚才 用 到 的 字符 串 函 数 之 外 ，Hive 还 提供 了 类 似 RLIKE 和 


REGEXP_EXTRACT 的 函数 ， 这 些 函 数 文 持 在 Hive 中 使 用 类 似 Java 中 的 正 
则 表达 式 。 重 写 上 例 中 的 联结 语句 ， 使 用 正则 表达 式 进 行 更 准确 、 更 优 
美的 联结 操作 。 


Hive 和 SQL 视 图 


Hive 还 支持 男 一 个 功能 强大 的 SQL 特 性 一 一 视图 。 在 用 户 通 过 SELECT 
语句 指定 逻辑 表 ( 不 是 静态 表 ) 的 内 容 的 时 候 ， 视 图 特别 有 用 ， 后 续 的 
语句 就 可 针对 这 个 包含 基础 数据 的 动态 视图 (这 也 是 视图 一 词 的 由 
玉 ) "运行 。 








8.11 实践 环节 : 使 用 视图 


我 们 可 以 使 用 视图 隐藏 相关 的 但 询 复杂 性 ， 例 如 上 例 中 执行 的 联结 操作 
的 复杂 性 。 接 下 来 ， 我 们 创建 视图 实现 该 功能 。 


1. 把 下 列 语句 保存 为 view.hql 脚本 。 


CREATE VIEWN IF NOT EXISTS usa sightings (sighted, reported, shape, sta 
AS select t1.sighted, t1.reported, t1.shape, t2.full _ name 

FROM ufodata t1 JOIN states t2 

ON (LOWER(t2.abbreviation) = LOWER(substr( t1.sighting location, 


(LENGTH(t1.sighting location)-1)))) ; 





2. 执行 view.hql 脚本 。 


$ hive -f view.hql 





脚本 的 运行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive-6.8.1/1i 
Hive history file=/tmp/hadoop/hive job _ log_hadoop_261263646557_1617766 
OK 

Time taken: 5.135 seconds 





3. 再 次 执行 view.hql 脚本 。 


$ hive -f view.hql 





脚本 的 运行 结果 如 下 所 示 。 





Logging initialized using configuration in jar:file:/opt/hive-6.8.1/1i 
Hive history file=/tmp/hadoop/hive job _ log_hadoop_261263646557_ 8512759 
OK 

Time taken: 4.828 seconds 





4. 针对 该 视图 执行 一 个 测试 查询 。 


$ hive -e "select count(state) from usa sightings where state = 
"California'™" 





上 述 但 询 语 句 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive-6.8.1/1i 
Hive history file=/tmp/hadoop/hive job_ log hadoop 2861263646558_ 1729315 
Total MapReduce jobs = 2 
Launching Job 1 out of 2 


2012-603-64 65:58:12,991 Stage-1 map = 68%, reduce = 6% 
2012-63-64 65:58:16,621 Stage-1 map 56%， reduce = 6% 
2012-63-64 65:58:18,646 Stage-1 map 166%， reduce = 6% 
2012-603-604 65:58:24,092 Stage-1 map 166%， reduce = 166% 
Ended Job = job 2061263646432_ 6627 

Launching Job 2 out of 2 


2012-63-64 65:58:33,656 Stage-2 map = 68%, reduce = 6% 
2012-63-64 865:58:36,673 Stage-2 map 166%， reduce = 8% 
2012-0603-64 65:58:45,736 Stage-2 map 166%， reduce = 166% 
Ended Job = job _ 201263646432 6628 

MapReduce Jobs Launched : 

Job 6: Map: 2 Reduce: 1 HDFS Read: 75416863 HDFS Write: 116 
SUCESS 

Job 1: Map: 1 Reduce: 1 HDFS Read: 364 HDFS Write: 5 SUCESS 
Total MapReduce CPU Time Spent: 6 msec. 

OK 

7599 

Time taken: 47.63 seconds 





5. 删除 视图 。 


$ hive -e "drop view usa sightings" 


该 命令 的 执行 结果 如 下 所 示 。 


OK 
Time taken: 5.298 seconds 





原理 分 析 


首先 ， 我 们 使 用 CREATE VIEW 语句 创建 了 一 个 视图 。 它 与 CREATE 
TABLE 类 似 ， 但 有 两 个 主要 区 别 : 


e。 列 定义 中 仅 包 括 列 名 ， 相 关 查 询 会 确定 各 列 的 数据 类 型 ; 
。 通过 As 子 句 中 指定 的 SELECT 语句 生成 视图 。 


我 们 使 用 上 例 中 用 到 的 联结 语句 生成 视图 ， 因 此 ， 实 际 上 ， 在 创建 表 的 
过 程 中 己 完 成 地 点 字段 向 州 名 全 称 的 转换 ， 而 没有 直接 要 求 用 户 执 行 这 
个 标准 化 过 程 。 


可 选 的 IF NOT EXISTS 子 句 (该 子 句 也 可 用 于 CREATE TABLE 语句 ) 
意味 着 ， 如 果 该 视图 已 经 存在 的 话 ，Hive 会 忽视 CREATE VIEW 语句 。 
如 果 不 使 用 这 个 子 句 ， 重 复 创 建 相同 的 视图 会 引发 错误 ， 这 并 不 总 是 我 
们 想 执行 的 操作 。 


接 痢 ， 我 们 执行 了 两 次 该 脚本 来 创建 视图 ， 同 时 也 验证 了 使 用 IF NOT 
EXISTS 子 句 可 以 防范 某 些 错误 ， 这 正 是 我 们 所 希望 的 。 


成 功 创建 视图 之 后 ， 我 们 接 下 来 对 它 执行 一 次 查询 操作 。 本 例 中 ， 我 们 
仅 统 计 了 发 生 在 加 利 福 尼 亚 州 的 UFEO 目 击 事件 次 数 。 上 例 中 用 于 生成 
MapReduce 作 业 的 那么 多 Hive 语 句 现 在 变 成 了 一 行 语句 ， 针 对 该 视图 的 
查询 需要 两 个 链 式 MapReduce 作 业 。 认 证 分 析 上 述 查 询 语句 和 视图 定 














义 ， 就 会 发 现 并 没什么 值得 惊奇 的 。 不 难 想象 ， 上 述 视图 是 通过 第 一 个 

MapReduce 作 业 实 现 的 ， 它 的 输出 作为 下 个 统计 UFO 目 击 事件 总 数 的 胡 

询 语句 的 输入 ， 该 得 询 语言 的 效果 与 第 二 个 MapReduce 作 业 相 同 。 因 

和 
行 时 间 。 


实际 上 ，Hive 的 智能 程度 远 高 于 此 。 如 果 视 图 创建 语句 中 可 以 包含 外 部 
查询 的 话 ，Hive 只 会 生成 并 运行 一 个 MapReduce 作 业 。 由 于 手工 开发 一 
系列 协同 操作 的 MapReduce 作 业 需 要 耗费 时 间 ， 而 Hive 的 一 个 巨大 优势 
就 在 于 它 节 省 了 这 些 开发 时 间 。 尽 管用 户 编写 的 MapReduce 作 业 的 运行 
效率 可 能 更 高 ，Hive 可 以 在 早期 帮助 用 户 判 定 哪个 作业 是 有 用 的 。 通 过 
运行 一 个 效率 不 高 的 Hive 查 询 就 可 以 判定 某 个 想法 是 否 与 预想 的 一 致 ， 
而 读者 耗费 一 天 时 间 开 发 MapReduce 作 业 最 终 无 非得 到 相同 结论 ， 我 们 
认为 第 一 个 方案 稍 好 一 些 。 


我 们 曾经 提 到 过 ， 视 图 会 掩盖 SQL 语 句 的 复杂 性 ， 这 通常 意味 着 执行 视 
图 本 来 就 很 费时 间 。 对 于 大 规模 生产 工作 来 说 ， 读 者 不 得 不 优化 SQL 语 
人 句 ， 有 时 可 能 需要 彻 确 放 弃 使 用 视图 。 


在 查询 执行 结束 之 后 ， 我 们 通过 DROP VIEW 语句 删 掉 了 视图 ， 这 再 次 说 
明 HiveQL 和 SQL 在 处 理 表 和 视图 时 的 相似 性 。 


处 理 Hive 中 的 畸形 数据 


细心 的 读者 可 能 已 经 发 现 ， 上 例 中 通过 碍 询 得 出 的 加 利 福 尼 亚 州 发 生 的 
UFO 目 击 事件 总 数 与 第 4 章 的 结果 不 一 致 。 这 是 为 什么 呢 ? 


回想 一 下 ， 在 第 4 章 运行 Hadoop Streaming 或 Java MapReduce 之 前 ， 我 们 
通过 某 种 方法 略 去 了 输入 行 中 的 畸形 数据 。 之 后 在 处 理 数据 时 ， 我 们 使 
用 了 更 为 精确 的 正则 表达 式 从 地 点 字段 提取 双 字 符 形式 的 州 名 缩写 。 但 
是 在 使 用 Hive 执 行 相同 任务 时 ， 我 们 没有 了 预 处 理 数据 ， 同 时 采用 的 提取 
州 名 缩写 的 方法 也 较为 粗糙 。 

对 于 后 者 ， 我 们 之 前 也 曾经 提 到 ，Hive 支 持 正 则 表达 式 ， 可 以 使 用 它 来 
更 精细 地 提取 州 名 缩写 。 而 对 前 者 而 言 ， 我 们 充其量 被 迫 在 许 多 查询 语 
人 句 中 加 入 WHERE 子 句 进行 复杂 的 验证 。 


与 上 述 解 决 方 采 不 同 ， 常 见 的 模式 是 在 数据 导入 Hive 之 前 进行 数据 预 处 









































理 。 例 如 ， 在 本 例 中 ， 我 们 可 以 运行 一 个 MapReduce 作 业 去 掉 输 入 文件 
中 的 所 有 晒 形 记录 ， 并 运行 男 一 个 MapReduce 作 业 提 前 完成 地 扣 字 段 的 
标准 化 。 

一 展映 手 : 实现 上 述 方案 

编写 一 两 个 MapReduce 作 业 对 输入 数据 进行 预 处 理 ， 生 成 一 个 经 过 疤 化 
的 更 适合 直接 导入 Hive 的 输入 文件 。 然 后 编写 一 个 脚本 执行 上 述 作 业 ， 


创建 一 个 Hive 表 ， 并 把 新 文件 导入 这 个 表 。 通 过 上 述 过 程 你 会 及 现 ， 使 
用 脚本 把 Hadoop 和 Hive 整 合 到 一 起 并 不 困难 ， 但 其 功能 却 非 常 强 大 。 





8.12 ”实践 环节 :， 导 出 查询 结 
刚才 ， 我 们 把 大 量 数据 导入 Hive 并 通过 查询 语句 从 中 提取 了 少量 数据 。 





我 们 也 可 以 导出 大 数据 集 ， 下 面 来 看 一 个 例子 。 
1. 重新 创建 刚才 用 到 的 视图 。 


$ hive -f view.hql 





2. 把 下 列 语句 保存 为 export.hql 文件 。 


INSERT OVERWRITE DIRECTORY '/tmp/out' 
SELECT reported, shape, state 

FROM usa_ sightings 

WHERE state = 'California' ; 





3. 执行 export .hql 脚本 。 


$ hive -f export.hql 





该 脚本 的 执行 结果 如 下 所 示 。 


2012-63-64 06:26:44,571 Stage-1 map = 166%,， reduce = 166% 

Ended Job = job 20601263646432 6629 

Moving data to: /tmp/out 

7599 Rows loaded to /tmp/out 

MapReduce Jobs Launched: 

Job 6: Map: 2 Reduce: 1 HDFS Read: 75416863 HDFS Write: 216961 
SUCESS 

Total MapReduce CPU Time Spent: 6 msec 

OK 

Time taken: 46.669 seconds 





| 


4. 碍 看 指定 的 输出 路 径 。 


$ hadoop fs -ls /tmp/out 





结果 如 下 所 示 。 


Found 1 items 
-rw-r--r-- 3 hadoop supergroup 216961 . /tmp/out/666666 1 





5. 检查 输出 文件 。 


$ hadoop fs -cat /tmp/out/666666 1 | head 





结果 如 下 所 示 。 


260621614 light California 
26650224 other California 
260621661 egg California 

26636527 sphere California 
26656813_ light California 


26646761 other California 
260631667_ light California 





原理 分 析 


在 重复 使 用 上 个 视图 之 后 ， 我 们 新 建 了 一 个 HiveQL 肢 本， 该 脚本 使 用 
了 INSERT OVERWRITE DIRECTORY 命令 。 顾 名 思 义 ， 该 脚本 把 后 续 查 
询 语句 的 执行 结果 写 入 指定 位 置 。OVERWRITE 修饰 语 也 是 可 选 的 ， 它 指 


明 是 否 要 删除 输出 目录 下 的 已 有 内 容 。 跟 在 INSERT 命令 后 面 的 SELECT 
语句 生成 了 要 写 入 输出 位 置 的 数据 。 本 例 中 ， 我 们 针对 基于 联结 创建 的 
视图 执行 查询 操作 ， 它 说 明了 和 查询 语句 是 如 此 的 复杂 。 


另 一 个 可 选 的 修饰 语 是 LOCAL ， 如 果 和 需要 把 输出 数据 写 入 运行 Hive 命 令 
的 本 地 文件 系统 而 不 是 HDFS 的 话 ， 用 户 就 可 选用 该 修饰 语 。 


在 运行 上 述 脚 本 的 时 候 ，MapReduce 作 业 输 出 的 绝 大 部 分 内 容 符合 预 
但 多 了 一 行内 容 ， 它 显示 的 古 已 向 指定 输出 位 置 导出 的 数据 总 行 


脚本 运行 完毕 之 后 ， 我 们 转 到 输出 路 径 ， 查 看 结果 文件 是 否 保存 在 该 目 
录 下 ， 并 检查 其 内 容 ， 结 末 与 预期 一 致 。 


提示 : 因为 Hive 默 认 使 用 ASCII 码 0001 (\a”) 作 为 输入 文本 文件 的 分 隔 
3 
0 上 例 所 示 。 


用 户 还 可 以 使 用 INSERT 命令 把 查询 结 果 插 入 表 中 ， 我 们 接 下 来 会 看 到 
这 种 例子 。 但 在 此 之 前 ， 我 们 需要 首先 解释 一 个 将 要 用 到 的 概念 。 


表 分 区 


我 们 之 前 曾 提 到 过 ， 在 一 段 较 长 的 时 间 内 ， 人 们 对 糟糕 的 联结 语句 评价 
很 和 兰 ， 因 为 它 会 导致 关系 数据 库 耗 费 大 量 时 间 去 完成 不 必要 的 工作 。 此 
外 ， 也 会 听 到 关于 碍 询 的 类 似 非议 ， 因 为 查询 操作 需要 执行 全 表 扫 描 ， 
人 
季 的 行 。 


对 于 存储 在 HDFS 并 映射 到 Hive 表 中 的 数据 ， 一 般 情 况 下 基本 上 都 依赖 
于 全 表 扫 描 。 由 于 无 法 将 数据 分 割 为 更 有 规律 的 、 可 直接 访问 用 户 感 兴 
趣 的 数据 子 集 的 结构 ，Hive 只 能 处 理 整 个 数据 集 。 对 大 约 为 70 MB 的 

UFO 文 件 来 讲 ， 问 题 并 不 大 ， 因 为 Hive 只 用 了 几 十 秒 就 完成 了 整个 文件 
的 处 理 任务 。 但 是 ， 如 果 要 处 理 的 文件 规模 是 UFO 文 件 大 小 的 1000 售 ， 
情况 又 会 如 何 呢 ? 


就 像 传统 关系 数据 库 一 样 ，Hive 可 以 基于 虚拟 列 的 值 对 表 进 行 分 区 操 
作 ， 这 些 虚拟 列 的 值 还 会 用 于 后 续 的 查询 语句 。 
































特别 是 ， 当 新 建 一 个 表 时 ， 用 尸 可 指定 一 列 或 多 列 作为 分 区 列 ， 然 后 在 
把 数据 导入 表 时 ， 这 些 列 的 值 将 决定 数据 会 被 号 入 哪个 分 区 。 


对 每 天 都 要 接收 大 量 数据 的 表 而 言 ， 最 常用 的 分 区 人 策略 就 是 使 用 日 期 列 
作为 分 区 列 。 之 后 我 们 就 可 以 限制 查询 语句 只 处 理 茶 个 特定 分 区 内 的 数 
据 。Hive 在 后 合 把 每 个 分 区 的 数据 存储 到 目 身 路 径 和 文件 中 ， 这 样 ， 它 
就 可 以 使 用 MapReduce 作 业 只 处 理 用 户 感 兴趣 的 数据 。 通 过 使 用 多 个 分 
区 列 ， 用 户 可 以 创建 一 个 多 层 结构 ， 对 于 需要 频繁 得 询 一 小 部 分 数据 的 
大 表 而 言 ， 很 有 必要 人 花 一 些 时 间 选 择 一 个 最 佳 的 分 区 策略 。 


对 UFO 数 据 集 而 言 ， 我 们 使 用 目击 事件 有 发生 的 年 份 作为 分 区 值 ， 但 需要 
使 用 一 些 不 太 和 常用 的 特性 来 使 其 共有 可 操作 性 。 因 此 ， 在 介绍 完 这 部 分 
内 容 之 后 ， 我 们 接 下 来 要 实现 一 些 分 区 。 




















8.13 ”实践 环节 : 制作 UFO 目 击 事件 分 区 表 
接 下 来 ， 我 们 将 为 UFO 数 据 新 建 一 个 表 ， 以 说 明 表 分 区 的 实用 性 。 
1. 把 下 列 查询 语句 保存 到 createpartition.hql 脚本 文件 。 





CREATE TABLE partufo(sighted string, reported string, sighting_ 
location string,shape string, duration string, description string) 
PARTITIONED BY (year string) 

ROW FORMAT DELIMITED 


FIELDS TERMINATED BY '\t" ; 








2. 把 下 列 查 询 语句 保存 到 insertpartition.hql 脚本 文件 。 


SET hive.exec.dynamic.partition=true ; 
SET hive.exec.dynamic.partition.mode=nonstrict ; 


INSERT OVERWRITE TABLE partufo partition (year) 
SELECT sighted, reported, sighting location, shape, duration, 
SUBSTR(TRIM(sighted), 1,4) FROM ufodata ; 





3. 创建 分 区 表 。 


$ hive -f createpartition.hql 





上 述 命 令 的 执行 结果 如 下 所 示 。 


Logging initialized using configuration in jar:file:/opt/hive-6.8.1/1i 
Hive history file=/tmp/hadoop/hive job log_hadoop_261263161838 1733165 
OK 


Time taken: 4.754 seconds 





EEC 


检查 刚 创建 的 表 。 


OK 


sighted string 

reported string 

sighting location string 
shape string 

duration string 


description string 
year string 
Time taken: 4.764 seconds 





. 在 表 中 插入 数据 。 


$ hive -f insertpartition.hql 





屏幕 上 将 会 显示 如 下 内 容 。 


Total MapReduce jobs 


Ended Job Job_ 261263646432 6641 

Ended Job = 994255761, job is filtered out (removed at runtime). 
Moving data to: hdfs://head:9666/tmp/hive-hadoop/hive_2612-63-16 18-38 
Loading data to table default.partufo partition (year=null) 

Loading partition {year=1977} 

Loading partition {year=18806} 

Loading partition {year=1975} 

Loading partition {year=2860867} 

Loading partition {year=1957} 


Table default.partufo stats: [num partitions: 160, num files: 1606， 
num rows: 8, total size: 74751215, raw data size: 0| 
61393 Rows loaded to partufo 


OK 
Time taken: 46.285 seconds 





6. 对 某 个 分 区 数据 执行 count 命令 。 


$ hive -e "select count(*)from partufo where year 





并 


结果 如 下 所 示 。 


Time taken: 26.56 seconds 





7. 在 未 分 区 表 上 执行 类 似 查 询 。 


$ hive -e "select count(*) from ufodata where sighted like 
"1989%'" 





其 结果 如 下 所 示 。 


OK 
249 
Time taken: 28.61 seconds 








8. 列 出 保存 分 区 表 的 Hive 目 录 下 的 所 有 文件 。 


$ Hadoop fs -ls /user/hive/warehouse/partufo 





其 结果 如 下 所 示 。 


Found 166 items 

drwxr-xr-x - hadoop supergroup 0 2012-63-16 
User/hive/warehouse/partufo/year=6666 

drwxr-xr-x - hadoop supergroup 0 2012-63-10 
user/hive/warehouse/partufo/year=14060 

drwxr-xr-x - hadoop supergroup 0 2012-63-10 
user/hive/warehouse/partufo/year=1762 

drwxr-xr-x - hadoop supergroup 0 2012-63-10 
user/hive/warehouse/partufo/year=17906 


drwxr-xr-x - hadoop supergroup 0 2012-63-16 
user/hive/warehouse/partufo/year=1860 
drwxr-xr-x - hadoop supergroup 0 2012-63-16 
user/hive/warehouse/partufo/year=1864 
drwxr-xr-x - hadoop supergroup 0 2012-63-16 
user/hive/warehouse/partufo/year=1865 





原理 分 析 


本 例 中 ， 我 们 创建 了 两 个 HiveQL 脚 本 文件 。 第 一 个 脚本 新 建 了 一 个 分 
区 表 。 可 以 看 出 ， 它 与 前 面 提 到 的 CREATE TABLE 语句 非常 接近 ， 区 别 
在 于 加 入 了 PARTITIONED BY 子 句 。 


在 执行 完 第 一 个 脚本 之 后 ， 我 们 检查 了 表 结 构 ， 从 HiveQL 的 角度 来 
看 ， 该 表 很 像 之 前 提 到 的 ufodata 表 ， 只 是 多 了 一 列 (year) 。 这 样 的 
话 ， 当 在 NHERE 子 句 中 指定 条 件 时 ， 系 统 会 同样 对 year 列 进行 处 理 ， 即 
使 该 列 数 据 并 不 存在 于 硬盘 数据 文件 中 。 


1 我 们 执行 第 二 个 脚本 ， 它 把 数据 导入 到 分 区 表 中 。 这 里 需要 注 


首先 ， 我 们 看 到 INSERT 命令 可 以 用 于 表 操 作 ， 就 像 上 一 节 用 于 目录 操 
作 一 样 。INSERT 语句 指定 了 数据 的 目的 位 置 ， 跟 在 INSERT 后 面 的 
SELECT 语句 从 已 有 表 或 视图 中 提取 所 需 数据 。 


本 节 使 用 的 分 区 方式 利用 了 Hive 的 一 个 新 功能 一 一 动态 分 区 。 在 大 多 数 
情况 下 ， 分 区 子 名 应 包含 明确 的 year 列 的 值 。 尽 管 这 种 方法 可 以 把 某 一 














天 的 数据 导入 基于 日 期 的 分 区 表 ， 但 它 不 适用 于 本 例 中 的 数据 文件 类 
型 ， 因 为 要 所 有 行 的 数据 插入 众多 分 区 表 中 。 通 过 指定 分 区 列 而 不 设 定 
具体 值 ，Hive 会 使 用 SELECT 语句 返回 的 year 列 的 值 目 动 生成 分 区 名 。 


这 就 解释 了 为 什么 会 在 SELECT 语句 末尾 出 现 一 个 奇怪 的 子 句 。 在 指 
明 ufodata 表 的 所 有 标准 列 之 后 ， 我 们 加 入 一 个 声明 ， 它 从 sighted 列 的 
内 容 中 提取 前 4 个 字 节 。 请 记 住 ， 因 为 分 区 表 把 year 分 区 列 视 为 ufodata 
表 的 第 7 列 ， 这 就 意味 着 我 们 要 把 每 行 中 sighted 字 符 串 中 的 年 度 值 指 定 
为 year 列 的 值 。 因 此 ， 我 们 在 原来 每 行内 容 的 基础 上 加 上 目击 事件 发 生 
的 年 份 ， 然 后 把 这 些 数据 插入 分 区 表 。 


为 了 证 明 上 述 脚 本 按照 预期 工作 ， 我 们 接着 进行 了 两 次 查询 操作 。 其 中 
一 次 查询 对 分 区 表 中 1989 年 的 所 有 记录 进行 计数 ， 男 一 次 查询 对 
ufodata 表 中 以 “1989” 字 符 串 开头 的 记录 进行 计数 。 我 们 曾 用 “1989” 字 
符 串 动态 生成 分 区 表 。 


可 以 看 出 ， 这 两 次 查询 的 结果 完全 一 致 ， 这 束 证 实 了 我 们 的 分 区 策略 按 
照 预期 工作 。 我 们 还 注意 到 ， 对 分 区 表 的 查询 要 稍 快 于 对 非 分 区 表 的 查 
询 ， 尽 管 二 者 速度 差别 并 不 明显 。 这 可 能 是 因为 在 处 理 这 种 小 规模 数据 
下 


最 后 ， 我 们 碍 看 了 Hive 为 分 区 表 存 储 数据 的 目录 ， 发 现 该 目录 下 共有 
100 个 动态 生成 的 分 区 表 。 今 后 使 用 HiveQL 语 名 引用 某 个 特定 分 区 ， 
a 它 只 会 处 理 在 相应 的 分 区 路 径 下 的 
数据 。 


8.13.1 分 桶 、 归 并 和 排序 


本 节 不 会 详细 介绍 这 些 内 容 ， 但 Hive 系 统 并 非 只 能 采用 多 层 分 区 列 这 种 
方法 对 数据 子 集 的 访问 过 程 进行 优化 。 在 一 个 分 区 中 ，Hive 提 供 了 进 一 
步 将 数据 行 聚 集 到 桶 中 的 方法 ， 它 通过 对 CLUSTER BY 指定 的 列 使 用 哈 
希 函 数 实现 。 用 户 还 可 使 用 SORT BY 对 指定 列 进 行 排序 ， 经 过 排序 的 数 
据 行 以 有 序 形式 存储 在 桶 中 。 例 如 ， 我 们 可 以 基于 UFO 形 状 对 数据 分 

桶 ， 在 每 个 桶 中 按 目 击 事件 发 生 的 日 期 进行 排序 。 


读者 在 第 一 天 使 用 Hive 的 时 候 肯定 不 会 用 到 这 些 功 能 ， 但 是 如 采用 户 要 
处 理 的 数据 集 越 来 越 大 ， 采 用 这 种 优化 方式 可 以 显赫 缩短 碍 询 的 处 理 时 




















间 。 
8.13.2 用户 自 定 义 函 数 


Hive 人 允许 用 户 在 HiveQL 执 行 的 过 程 中 直接 挂 接 上 自 定 义 代码 。 这 个 功能 
既 可 以 通过 新 增 库 函 数 实现 ， 也 可 以 通过 指定 类 似 于 Hadoop Streaming 
的 Hive transform 实现 。 本 节 我 们 将 学 习 用 户 目 定义 图 数 ， 添 加 目 定 义 
代码 可 能 是 用 户 在 学 习 Hive 的 早期 阶段 最 需要 的 功能 。Hive transform 是 
一 种 较为 复杂 的 机 制 ， 用 户 可 用 它 添 加 在 Hive 运 行 时 调用 的 map 和 
reduce 类 。 如 果 用 户 对 Hive transform 感 兴趣 的 话 ，Hive wiki 对 其 进行 了 
详细 说 明 。 








8.14 ”实践 环节 : 新 增 用 户 目 定 义 函 数 
接 下 来 ， 我 们 演示 如 何 使 用 UDF 创 建 并 调用 自 定 义 Java 代 码 。 
1. 把 以 下 代码 保存 为 City .java。 


package com.kycorsystems ， 


import java.util.regex.Matcher ， 

import java.util.regex.Pattern ， 

import org.apache.hadoop.hive.ql.exec.UDF ， 
import org.apache.hadoop.io.Text ; 


public class City extends UDF 
{ 
private static Pattern pattern = Pattern,.Ccompile( 
"[a-zA-z]+?[\\. ]*[a-zA-z]+?[\\, J][^a-zA-2Z]") ; 


public Text evaluate( final Text str) 
& 
Text result ， 
String location 
Matcher matcher 


str.toSstring().trim() ， 
pattern.matcher(location) ; 


If (matcher.find()) 
{ 


} 
else 


{ 
} 


result = new Text(location. substring(matcher.start(), matcher.end() 


result = new Text("Unknown") ，; 


return result ; 





2. 编译 City .java。 


$ javac -cp hive/lib/hive-exec-0.8.1.jar:hadoop/hadoop-1.0.4-core. 
jar -d . City.java 


3. 把 生成 的 类 文件 打包 到 JAR 文 件 中 。 
上 述 命令 的 输出 如 下 所 示 。 


added manifest 
adding: com/(in = 0) (out= 0)(stored 0%) 





adding: com/kycorsystems/(in = 0) (out= 0)(stored 0%) 
adding: com/kycorsystems/City.class(in = 1101) (out= 647)(deflated 41%) 





.启动 交互 式 的 Hive shell。 


$ hive 


. 把 city.jar 添加 到 Hive classpath 。 
hive> add jar city.jar; 
上 述 命令 的 执行 结果 如 下 所 示 : 


Added city,jar to class path 
Added resource: city.jar 


. 人 确认 city .jar 已 添加 到 Hive calsspath 。 


hive> list jars; 
上 述 命令 的 执行 结果 如 下 所 示 。 


file:/opt/hive-0.8.1/1ib/hive-builtins-0.8.1.jar 





city.jar 
. 为 新 加 入 的 代码 重新 注册 一 个 函数 名 。 
上 述 命令 的 执行 结果 如 下 所 示 。 


OK 
Time taken: 0.277 Seconds 


. 使 用 新 函数 执行 一 次 得 询 。 


hive> select city(sighting location), count(*) as total 
> from partufo 
where year = '1999' 


> 
> group by city(sighting_ location) 
> having total > 15 ，; 





上 述 命 令 的 执行 结果 如 下 所 示 。 





Total MapReduce jobs = 1 
Launching Job 1 out of 1 


OK 

Chicago 19 
Las Vegas 19 
Phoenix 19 
Portland 17 
San Diego 18 
Seattle 26 
Unknown 34 


Time taken: 29.055 seconds 
原理 分 析 


我 们 编写 的 Java 类 对 org.apache.hadoop.hive.exec.ql.UDF (User 
Defined Function〉 其 类 进行 了 扩展 。 在 该 类 中 ， 我 们 定义 了 一 个 返回 指 
定 地 点 字符 串 对 应 的 城市 名 的 函数 ， 而 地 点 字符 串 的 模式 与 前 几 节 完全 
相同 。 


实际 上 ，UDF 并 不 会 限制 evaluate 函数 的 参数 类 型 ， 相 反 ， 用 户 可 以 自 
由 添加 带 有 任意 类 型 的 参数 和 返回 类 型 的 目 定义 函数 。Hive 使 用 Java 反 
射 (Reflection) 技术 选择 正确 的 evaluate 函 数 。 如 果 用 户 想 达 到 更 精细 
的 选择 ， 可 以 自行 开发 实现 UDFMethodResolver 接口 的 实用 类 。 


上 例 中 用 到 的 正则 表达 式 有 点 难以 理解 ， 我 们 只 是 想 要 提取 跟 在 州 名 缩 
写 后 面 的 城市 名 ， 而 该 正则 表达 式 却 如 此 复杂 。 然 而 ， 城 市 名 的 描述 方 
式 不 一 致 以 及 对 多 个 单词 组 成 的 名 字 的 处 理 ， 造 成 了 上 述 复杂 的 正则 表 
达 式 。 除 此 之 外 ， 本 例 中 实现 的 类 较为 简单 。 


接着 ， 我 们 编译 了 City .java 文件 ， 并 在 此 过 程 中 加 入 一 些 必需 的 Hive 
和 Hadoop 的 JAR 文 件 。 


提示 : 请 记 住 ， 如 果 用 户 使 用 的 Hadoop 和 Hive 版 本 与 作者 的 版 本 不 
同 ， 那 么 hive/lib/hive-exec-0.8.1.jar 和 hadoop/hadoop-1.0.4-core.jar 的 文 
件 名 可 能 会 有 区 别 。 


紧 接 着 ， 我 们 把 生成 的 类 文件 打包 成 JAR 文 件 ， 并 启动 Hive 交 互 式 
shell。 


在 创建 JAR 文 件 之 后 ， 我 们 需要 配置 Hive 使 用 该 文件 。 这 个 过 程 分 两 个 
步骤 进行 。 首 先 ， 我 们 使 用 add jar 命令 把 新 建 JAR 文 件 添加 到 Hive 使 
用 的 classpath。 在 此 之 后 ， 我 们 使 用 list jars 命令 确认 新 JAR 文 件 已 
经 注册 到 系统 中 。 


添加 JAR 文 件 只 是 告诉 Hive 存 在 一 些 代 码 ， 并 没有 指明 我 们 希望 在 
HiveQL 语 句 中 以 何 种 方式 引用 这 些 函 数 。CREATE FUNCTION 完成 的 束 
是 这 个 工作 一 一 把 Java 类 与 函数 名 关联 起 来 ， 本 例 中 ，CREATE 
FUNCTION 将 city 函数 与 提供 了 该 函数 实现 代码 的 











com.kycorsystems .City 类 关联 起 来 。 


在 把 JAR 文 件 添加 到 classpath， 并 创建 了 city 函数 之 后 ， 我 们 可 以 在 
HiveQL 语 句 中 引用 city() 函数 了 。 


接 下 来 ， 我 们 运行 一 个 示例 查询 ， 以 说 明 city() 函数 工作 正常 。 回 想 
一 下 ， 在 UFO 目 击 事件 分 区 表 中 ， 我 们 最 希望 在 哪个 地 方 最 常 出 现 
UFO， 因 为 所 有 人 都 想 义 早 解 开 这 个 千年 之 谜 。 


从 HiveQL 可 以 看 出 ， 我 们 可 以 像 使 用 其 他 函数 一 样 使 用 新 加 的 用 户 目 
定义 函数 ， 而 且 通 常 只 能 依靠 用 户 对 标准 Hive 函 数 库 的 熟悉 程度 ， 来 区 
分 哪些 函数 是 内 置 函 数 哪些 函数 是 用 户 自 定义 函数 。 


结果 显示 ， 美 国 西 北部 和 西南 部 集中 出 现 了 UFO 目 击 事件 ，Chicago 则 
是 个 例外 。 但 是 ， 结 果 中 还 包含 一 些 无 法 确定 城市 名 的 数据 ， 我 们 需要 
进一步 分 析 其 原因 ， 是 由 于 出 现 UFO 的 地 方 不 在 美国 范围 内 还 是 正则 表 
达 式 不 够 完善 需要 进一步 改进 ? 

















8.14.1 ”是否 进 行 预 处 理 





我 们 回想 一 下 之 前 提 到 的 一 个 话题 : 是 否 需要 在 数据 导入 Hive 之 前 对 其 
进行 预 处 理 ， 去 除 畸 形 数据 。 从 上 个 例子 可 以 看 出 ， 我 们 可 以 使 用 一 系 
列 用 户 自 定义 函数 在 进行 数据 处 理 的 过 程 中 完成 类 似 的 数据 清洗 工作 。 

例如 ， 我 们 可 以 加 入 用 户 自 定 义 的 state 和 country 函数 ， 从 目击 事件 
发 生 的 地 点 字符 串 中 提取 或 推导 出 所 在 的 地 区 和 国家 。 很 难说 哪 种 方法 
更 好 一 些 ， 但 有 一 些 指 导 原 则 可 以 帮助 用 户 决 定 选用 哪 种 方法 。 


就 像 我 们 用 到 的 例子 一 样 ， 如 果 由 于 种 种 原因 无 法 处 理 完整 的 地 点 字符 
串 ， 仅 能 从 中 提取 几 个 明显 的 组 成 部 分 ， 那 么 可 能 有 必要 进行 数据 预 处 
理 。 通 过 预 处 理 我 们 可 以 把 要 访问 的 列 标准 化 为 更 可 预料 的 格式 ， 甚 至 
把 它 分 成 独立 的 城市 /地 区 /国家 这 几 列 ， 而 不 必 每 次 都 执行 代价 较 大 的 
文本 处 理 。 

但 是 ， 如 果 在 HiveQL 中 经 常 要 用 到 某 一 列 的 原始 数据 ， 并 且 仅 在 特殊 
情况 下 才 需 要 对 该 列 数据 进行 处 理 ， 那 么 对 整个 数据 集 进 行 代价 很 大 的 
预 处 理 就 没 多 大 好 处 。 


基于 上 述 原则 选用 对 自己 的 数据 和 工作 任务 最 有 利 的 处 理 方 案 。 还 要 记 














住 ， 用 户 自 定义 函数 不 仅仅 可 以 执行 这 种 文本 处 理 ， 它 们 可 以 封 沪 用 户 
想 对 表 中 数据 执行 的 任何 操作 代码 。 


8.14.2 ”Hive 和 Pig 的 对 比 


在 互联 网 上 搜索 关于 Hive 的 文章 时 ， 经 常会 发 现 人 们 往往 将 Hive 和 男 一 
个 称 为 Pig 的 Apache 项 目 进行 对 比 。 其 中 关于 它们 之 间 对 比 的 最 常见 问 
题 是 : 为 什么 二 者 都 存在 ， 什 么 时 候 该 选用 哪 一 个 工具 ， 哪 个 工具 更 好 
一 些 ， 以 及 使 用 哪 种 工具 显得 更 酷 一 些 。 


二 者 的 相似 之 处 在 于 ，Hive 提 供 了 一 种 类 似 SQL 语 言 的 接口 用 于 数据 处 
理 ， 而 Pig 用 到 了 一 种 叫做 Pig Latin 的 语言 定义 数据 流 流 水 线 。 就 像 
Hive 先 把 HiveQL 翻 译 成 MapReduce， 人 然后 执行 这 些 MapReduce 作 业 一 
样 ，Pig 会 执行 类 似 的 代码 生成 过 程 ， 它 把 Pig Latin 脚 本 翻译 为 
MapReduce 人 代码。 


二 者 的 最 大 区 别 在 于 对 作业 执行 方式 的 控制 粒度 。HiveQL 就 像 SQL 一 
样 ， 它 只 定义 要 执行 的 操作 ， 却 几乎 不 管 如 何 实现 这 些 操作 。HiveQL 
碍 询 规划 器 负责 安排 HiveQL 命 令 的 执行 顺序 ，evaluate 函 数 的 执行 顺序 
等 。Hive 在 运行 时 给 出 上 述 安排 ， 它 的 工作 模式 类 似 于 传统 关系 数据 库 
的 碍 询 规划 器 。Pig Latin 也 是 在 查询 规划 器 这 一 层 操作 数据 。 


使 用 Hive 和 Pig 都 避免 了 直接 编写 MapReduce 代 码 ， 只 不 过 两 种 方法 的 抽 
象 方式 不 上 尽 相同 。 


到 底 是 选用 Hive 还 是 选用 Pig 最 终 取 决 于 用 户 需 求 。 如 果 用 户 更 希望 使 

用 就 悉 的 SQL 接 口 操作 数据 ， 它 可 以 使 Hadoop 中 的 数据 用 于 更 广泛 的 受 
众 ， 那 么 很 明显 应 当选 用 Hive。 但 如 果 有 专门 人 员 以 数据 流水 线 的 方式 
考虑 问题 ， 并 需要 对 作业 运行 方式 进行 更 细 粒 度 的 控制 ， 那 么 可 能 Pig 
会 是 一 个 更 好 的 选择 。Hive 和 Pig 项 目 都 在 寻求 进一步 整合 ， 因 此 ， 关 

于 它们 属于 竞争 关系 的 错误 观念 会 得 到 改善 。 二 者 作为 相互 补充 的 技 

术 ， 都 可 降低 执行 MapReduce 作 业 的 门槛 。 


8.14.3 ”未 提 到 的 内 容 


在 本 章 对 Hive 的 综述 中 ， 我 们 介绍 了 它 的 安装 和 配置 方法 ， 如 何 创 建 表 
并 在 表 中 插入 数据 ， 怎 样 创建 视图 以 及 如 何 实现 联结 等 内 容 。 我 们 演示 














了 如 何 把 数据 导入 、 导 出 Hive， 如 何 优化 数据 处 理 过 程 ， 并 研究 了 几 个 
Hive 内 置 函 数 。 


实际 上 ， 我 们 仅 学 习 了 Hive 的 皮毛 。 我 们 不 仅 没 有 深入 研究 上 述 几 个 话 
题 和 相关 概念 ， 甚 至 都 没有 接触 类 似 MetaStore 和 SerDe 的 内 容 。Hive 
将 其 配置 和 元 数据 存储 在 MetaStore 中 ， 而 SerDe (serialize/deserialize) 
则 用 于 从 JSON 这 样 的 复杂 文件 格式 读 取 数据 。 


Hive 是 一 种 功能 非常 丰富 的 工具 ， 它 提供 了 很 多 复杂 而 又 强大 的 功能 。 
如 果 读 者 认为 Hive 对 目 己 非常 有 用 ， 那 么 建议 读者 在 学 完 本 章 例子 之 
后 ， 花 时 间 阅 读 Hive 网 站 上 的 文档 。 你 还 会 在 那里 发 现 用 户 邮 件 列 表 ， 
它 是 一 个 很 好 的 信息 来 源 ， 通 过 它 可 以 获得 别人 的 帮助 。 




















8.15 ”基于 Amazon Web Services 的 Hive 


弹性 MapReduce 对 Hive 的 支持 力度 很 大 ， 它 提供 了 一 些 特殊 机 制 ， 有 助 
于 把 Hive 整 合 到 其 他 AWS 服 务 中 。 


8.16 ”实践 环节 : 在 EMR 上 分 析 UFO 数 据 


接 下 来 ， 我 们 将 通过 在 EMR 平 台 上 分 析 UFO 数 据 来 研究 如 何在 EMR 环 
境 中 使 用 Hive。 


1. 登录 WS 管理 控制 台 ， 其 地 址 为 http://aws.amazon.com/console 。 


2. EMR 上 的 每 个 Hive 作 业 流 都 从 一 个 S3 桶 开始 运行 ， 我 们 需要 选择 用 
作 存 储 源 数据 的 梢 。 选 择 S3 以 查看 用 户 账 户 创建 的 桶 列表 ， 之 后 
从 中 选择 一 个 桶 作为 作业 流 的 数据 来 源 。 在 本 例 中 ， 我 们 选用 名 为 
garrytluse 的 桶 。 


3. 通过 网 页 接口 在 garrytluse 桶 中 新 建 3 个 目录 ， 它 们 分 别 是 ufodata 
、ufoout 和 ufologs 。 桶 中 内 容 的 列表 如 下 图 所 示 : 











on $3 


Sy EC2 WC Cioudrtach Electe MepRoduce CloudFront CloudFormation NBS 








4. 双击 并 打开 ufodata 目录 ， 在 该 目录 下 创建 两 个 名 为 ufo 和 
states 的 子 目 录 。 


5. 把 下 列 代码 保存 为 s3test.hql 脚本 ， 点 击 ufodata 目录 中 的 
Upload 链接 ， 按 照 提 示 上 传 该 脚本 文件 。 





CREATE EXTERNAL TABLE IF NOT EXISTS ufodata(sighted string, 
reported string, sighting location string, 
shape string, duration string, description string) 


ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t' 
LOCATION '${INPUT}/ufo' ; 


CREATE EXTERNAL TABLE IF NOT EXISTS states(abbreviation string, full_n 
ROW FORMAT DELIMITED 

FIELDS TERMINATED BY ‘'\t' 

LOCATION '${INPUT}/states' ; 


CREATE VIEW IF NOT EXISTS usa sightings (sighted, reported, shape, sta 
AS SELECT t1.sighted, t1.reported, t1.shape, t2.full _ name 

FROM ufodata t1 JOIN states t2 

ON (LOWER(t2.abbreviation) = LOWER(SUBSTR( t1.sighting location, (LENG 


CREATE EXTERNAL TABLE IF NOT EXISTS state results ( reported string, s 
ROW FORMAT DELIMITED 

FFIELDS TERMINATED BY '\t' LINES TERMINATED BY ‘'\n' 

STORED AS TEXTFILE 

LOCATION '${OUTPUT}/states' ; 


INSERT OVERWRITE TABLE state results 
SELECT reported, shape, state 

FROM usa_ sightings 

WHERE state = 'California' ; 





Ufodata 目录 中 的 文件 列表 如 下 图 所 示 。 
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6. 双击 并 打开 states 目录 ， 并 把 之 前 曾 用 到 的 states.txt 文件 上 
传 到 该 目录 。 该 目录 中 的 文件 列表 如 下 图 所 示 。 

















AWS Management Console ，Anazpn 33 
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@ em Dv [I 
7. 点 击 文件 列表 顶部 的 ufodata 部 件 ， 然 后 返回 该 目录 。 


8. 双击 并 打开 ufo 目录 ， 把 之 前 曾 用 到 的 ufo.tsv 文件 上 传 到 该 目 
录 。 该 路 径 下 的 文件 列表 如 下 图 所 示 。 
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9. 现在 ， 选 择 Elastic MapReduce 并 点 击 Create a New Job Flow 。 然 


后 选择 Run your own application ， 并 选择 Hive Program， 如 下 图 所 
人 外 o 
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为 例 ， 但 要 记 信 站 栖 名 (s3://URLs 的 第 一 部 分 ) 改 为 用 户 刚刚 设置 
, 用 。 


10. 点 击 Continue 按钮 ， 之 后 填写 Hive 作 业 流 所 需 的 细节 信息 。 以 下 图 
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11. 点 击 Continue 按钮 ,检查 要 使 用 的 主机 类 型 和 主机 数量 ， 然 后 再 次 
反击 Continue 控 钮 。 然 后 填写 存放 日 忘 文件 的 目录 名 ， 如 下 图 所 
人 外。 
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(Optional): 


Enable Debugoing: © Yes 


Ser advanced Iob fow opbons. 





Keep Alive © Ves 








httos jcensob, ans omaron comjclorticeoptodurclhore ls 








12. 单 击 Continue 按钮 。 之 后 在 剩余 的 作业 创建 步骤 中 一 直 点 击 
Continue 按 钮 ， 因 为 用 户 无 需 修改 剩余 步 又 中 的 默认 设置 。 最 后 ， 
启动 作业 流 并 通过 管理 控制 台 查 看 其 进度 。 


13. 一 旦 作业 成 功 完 成 ， 返 回 $S3 并 双击 ufoout 目录 。 该 目录 下 应 该 有 
一 个 states 目录 ， 在 该 目录 中 有 一 个 名 为 6666666 的 文件 。 双 击 
并 下 载 该 文件 ， 验 证 其 内 容 如 下 所 示 。 








20621614 light California 
other California 
egg California 

26636527 sphere California 





原理 分 析 


在 实际 执行 EMR 作 业 流 之 前 ， 我 们 需要 完成 一 些 设置 工作 。 首 先 ， 我 们 
使 用 S3 的 网 页 接口 为 作业 创建 目录 结构 。 我 们 创建 了 3 个 主 目录 ， 分 别 
的 


Do 


HiveQL 脚 本 中 包含 一 些 本章 前 几 节 用 到 的 Hive 命 令 ， 本 例 中 对 它们 做 
了 一 些 修 改 。 我 们 为 UFO 有 目击 事件 数据 和 州 名 创建 了 两 个 表 ， 并 创建 了 
一 个 联结 这 两 个 表 的 视图 。 接 着 ， 我 们 创建 了 一 个 没有 源 数据 的 新 表 ， 
并 通过 INSERT OVERWRITE TABLE 语句 把 一 个 查询 的 结果 数据 插入 该 
表 。 








该 脚本 的 特别 之 处 在 于 为 每 个 表 指 定 LOCATION 子 名 的 方式 。 对 存储 输 
入 数据 的 表 而 言 ， 我 们 使 用 相对 于 INPUT 变 量 的 路 径 ， 类 似 地 ， 我 们 使 
用 相对 于 OUTPUT 变量 的 路 径 作为 存储 结果 数据 的 表 的 输出 位 置 。 


请 注意 ，EMR 中 的 Hive 和 希望 表 数 据 的 位 置 是 一 个 路 径 而 非 文 件 。 这 也 就 
解释 了 之 前 我 们 为 什么 要 为 每 个 表 都 创建 一 个 子 目 录 ， 然 后 把 特定 源 文 
件 上 传 到 相应 目录 中 ， 而 不 是 直接 指定 每 个 表 要 用 的 数据 文件 的 路 径 。 


在 S3 桶 中 创建 了 必需 的 文件 和 目录 结构 之 后 ， 我 们 转向 EMR 网 页 控制 
台 ， 并 开始 创建 作业 流 。 





在 指明 我 们 希望 使 用 自 有 Hive 程 序 之 后 ， 我 们 在 一 个 页 面 中 填 入 了 作业 
流 需 要 的 一 些 关 键 数据 : 


。 HiveQL 脚 本 本 喘 的 位 置 ; 
。 输入 数据 所 在 路 径 ; 
。 写 入 输出 数据 的 目录 。 


HiveQL 脚 本 的 自身 路 径 是 一 个 很 明确 的 路 径 ， 无 需 对 它 进 行 任何 解 
释 。 但 是 ， 输 入 数据 路 径 和 输出 数据 路 径 是 如 何 映射 为 Hive 脚 本 中 使 用 
的 INPUT 和 OUTPUT 变量 的 ， 理 解 这 一 点 非常 重要 。 


Hive 脚 本 使 用 INPUT 变量 指 代 输入 路 径 ， 这 就 是 我 们 把 包含 UFO 目 击 事 
件数 据 的 路 径 写 为 ${INPUT}/ufo 的 原因 。 类 似 地 ，Hive 脚 本 使 
用 OUTPUT 变量 指 代 输出 路 径 。 


我 们 没有 对 默认 的 主机 设置 进行 任何 改动 ， 选 用 了 一 合 较 小 的 主 市 点 主 
机 和 两 台 较 小 的 核心 节操 主机 。 在 下 一 个 页 面 中 ， 我 们 添加 了 作业 流 运 
行 过 程 中 产生 的 日 志 的 存储 位 置 。 


尽管 用 户 可 选择 是 否 输出 日 志 ， 但 捕获 这 些 日 志 是 有 用 的 ， 尤 其 是 在 运 
行 新 脚本 的 早期 阶段 ， 虽 然 在 S3 服 务 中 存储 这 些 日 志 信 息 是 要 付费 的 。 
EMR 还 可 以 把 有 索引 的 日 志 数 据 写 入 另 一 个 AWS 服 务 SimpleDB ， 
但 我 们 没有 演示 其 使 用 方式 。 


在 完成 作业 流 定 义 之 后 ， 我 们 局 动 该 作业 流 。 在 作业 流 成 功 执行 后 ， 我 
们 转 同 S3 接 口 浏览 输出 目录 ， 不 出 所 料 ， 该 目录 中 包含 着 作业 流 的 输出 


结 

















8.16.1 在 开发 过 程 中 使 用 交互 式 作 业 流 


在 开发 用 于 EMR 的 新 Hive 脚 本 时 ， 上 市 讲 的 按 批 执行 作业 的 方式 不 太 合 
适 。 通 党 在 作业 流 创建 和 执行 过 程 中 有 几 分钟 的 延迟 ， 如 果 作 业 失 败 的 
话 ， 会 浪费 EC2 实 例 几 个 小 时 的 开销 。 


与 上 例 中 选择 不 同 的 选项 创建 作业 流 来 运行 Hive 脚 本 不 同 ， 我 们 还 可 以 
以 交互 式 模 式 局 动 Hive 作 业 流 。 它 可 以 加 快 Hadoop 集 群 的 设置 ， 却 不 需 


要 脚本 。 你 可 以 通过 SSH 方 式 以 集群 用 户 的 号 份 登录 到 安装 有 Hive 的 主 
节点 。 在 这 样 的 环境 中 开发 脚本 更 有 效率 。 如 果 需 要 的 话 ， 把 作业 流 脚 
本 设置 为 自动 执行 方式 。 


一 展映 手 : 使 用 交互 式 的 EMR 集 群 


在 EMR 中 局 动 一 个 交互 式 的 Hive 作 业 流 。 你 会 用 到 已 在 EC2 中 注册 好 
的 SSH 证 书 来 连接 到 主 节 点 。 直 接 在 主 节 点 上 运行 上 个 脚本 ， 记 得 要 
为 脚本 提供 合适 的 参数 。 


8.16.2 与 其 他 AWS 产 品 的 集成 


在 本 地 安装 Hadoop/Hive 之 后 ， 数 据 的 存储 位 置 无 非 就 是 HDFS 或 者 本 地 
文件 系统 。 从 前 几 节 内 容 可 以 看 出 ，EMR 中 的 Hive 提 供 了 男 外 一 种 选 
择 ， 它 文 持 从 外 部 表 中 获取 数据 ， 例 如 S3。 


男 一 种 AWS 服 务 也 有 类 似 的 功能 ， 它 就 是 DynamoDB 《网 址 

为 http://aws.amazon.com/dynamodb ) 。 它 是 托管 在 云端 的 NoSQL 数 据 
库 。 运 行 于 EMR 的 Hive 作 业 流 可 以 声明 使 用 外 部 表 ， 既 可 以 从 
DynamoDB 读 取 数 据 ， 也 可 以 将 其 作为 查询 结果 的 输出 位 置 。 


这 个 模型 功能 非常 强大 ， 因 为 在 这 种 模式 下 ， 用 户 可 以 使 用 Hive 来 处 理 
和 合并 多 个 数据 源 的 数据 ， 而 从 某 个 系统 癌 Hive 表 的 数据 映射 机 制 是 透 
明 的 。 另 外 ，Hive 还 可 以 借助 DynamoDB 把 数据 从 一 个 系统 迁移 到 另 一 
个 系统 。 采 用 这 种 数据 存储 方案 的 主要 障碍 在 于 ， 需 要 频繁 地 将 存储 在 
HDFS 或 本 地 文件 系统 的 数据 转移 到 托管 的 云 存储 系统 中 。 











8.17 小 结 


本 章 学 习 了 Hive 的 相关 知识 ， 用 过 关系 数据 库 的 读者 应 该 非常 熟悉 Hive 
提供 的 许多 工具 和 功能 。 由 于 避免 了 开发 MapReduce 程 序 ，Hive 能 够 使 
更 多 的 人 感受 到 Hadoop 的 强大 之 处 。 


特别 是 ， 我 们 下 载 并 安装 了 Hive， 了 解 到 它 是 一 个 把 HiveQL 语 言 转换 
成 MapReduce 代 码 的 客户 端 程序 ， 然 后 再 把 MapReduce 程 序 提交 给 
Hadoop 人 集群。 我 们 研究 了 Hive 创 建 表 并 针对 这 些 表 执行 查询 的 原理 。 我 
们 观察 到 ，Hive 可 以 文 持 多 种 基础 的 数据 文件 格式 和 数据 结构 ， 并 学 习 
了 如 何 修改 相应 的 设置 选项 。 


通过 本 章 学 习 ， 我 们 还 认识 到 ，Hive 表 在 很 大 程度 上 是 一 个 逻辑 概念 。 
有 了 这 种 认识 之 后 ， 所 有 针对 表 的 类 似 SQL 的 操作 事实 上 都 是 由 
MapReduce 作 业 在 HDFS 文 件 上 完成 的 。 之 后 ， 我 们 学 习 了 如 何在 Hive 
中 使 用 联结 和 视图 ， 以 及 如 何 对 表 进行 分 区 以 辅助 蜗 效 查询 操作 。 


我 们 使 用 Hive 把 查询 结果 写 入 HDFS 上 的 文件 ， 并 学 习 了 如 何在 弹性 
MapReduce 中 使 用 Hive， 怎 样 使 用 交互 式 作业 流 开 发 新 的 Hive 程 序 ， 并 
在 批 运行 模式 中 自动 运行 这 些 程序 。 


我 们 在 本 书 中 曾 多 次 提 到 ，Hive 看 上 去 是 个 关系 数据 库 ， 其 实 并 非 如 
此 。 但 是 ， 在 很 多 情况 下 ， 读 者 需要 整合 某 些 现 有 的 关系 数据 库 。 下 一 
0 
动 数据 。 


























第 9 章 ”与 天 系数 据 库 协同 工作 


从 上 一 章 可 以 看 出 ，Hive 的 功能 非常 强大 。 用 户 可 以 把 存储 在 Hadoop 
中 的 数据 近似 看 做 关系 数据 库 。 然 而 ， 它 终究 不 是 一 个 真正 的 关系 数 
据 库 。 它 没有 完全 实现 SQL 标 准 ， 它 的 性 能 和 规模 特征 与 传统 关系 数 
据 库 区 别 很 大 (并 不 是 说 哪个 更 好 一 些 )。 


很 多 情况 下 ， 读 者 会 发 现 Hadoop 集 群 需要 与 天 系数 据 库 配合 完成 东 些 

数据 处 理 任务 。 通 币 ， 业 务 流 需要 把 数据 从 一 个 存储 系统 移动 到 另 一 

个 存储 系统 。 本 章 ， 我 们 将 研究 如 何在 不 同 存储 系统 之 间 转 移 数 据 。 
本 章 包 括 以 下 内 容 : 


。 介绍 一 些 常 见 的 Hadoop/RDBMS 使 用 案例 ; 











学 习 如 何 将 数据 从 RDBMS 移 至 HDFS 和 Hive; 
最 好 使 用 Sqoop 解 决 上 述 问题 ， 

使 用 Sqoop 将 Hadoop 数 据 导出 至 RDBMS; 

最 后 讨论 如 何在 AWS 中 使 用 Sqoop。 


9.1 季 见 数据 路 径 


早 在 第 1 章 我 们 就 曾 讨 论 过 在 什么 情况 下 使 用 Hadoop， 在 什么 情况 下 使 
用 传统 关系 数据 库 。 和 当时 的 解释 一 样 ， 我 们 认为 要 根据 手头 的 具体 任 
务 选择 合适 的 工具 ， 甚 至 还 有 可 能 要 同时 用 到 多 种 技术 。 为 阐明 这 一 观 
点 ， 我 们 来 看 一 些 具 体 的 例子 。 


9.1.1 Hadoop 用 于 存储 档案 


把 RDBMS 用 作 主 要 的 数据 储存 库 时 ， 经 第 会 遇 到 数据 规模 和 数据 保留 
ee A 
数据 呢 ? 


习惯 上 ， 有 两 种 主要 的 解决 方案 。 


。 对 RDBMS 进 行 分 区 ， 这 样 会 提高 较 新 数据 的 访问 性 能 。 有 时 ， 可 
以 使 用 速度 较 慢 、 成 本 较 低 的 存储 系统 储存 老 旧 数据 。 


。 使 用 磁带 或 其 他 线 下 存储 设备 存储 老 旧 数据 。 


这 是 两 种 有 效 的 解决 办 法 。 到 后 选用 哪 种 方法 取决 于 是 否 需 要 实时 访问 
这 些 老 旧 数 据 。 这 两 种 方法 都 比较 极端 ， 第 一 种 方法 保证 了 访问 速度 的 
最 大 化 ， 却 提高 了 系统 复杂 性 并 增加 了 设备 成 本 ;第 二 种 方法 虽然 降低 
了 成 本 但 无 法 实时 访问 数据 。 


最 近 出 现 了 一 种 新 的 解决 方案 : 用 关系 数据 库存 储 最 新 数据 ， 同 时 使 用 
Hadoop 存 储 老 数据 。 采 用 这 种 方案 后 ， 数 据 要 么 以 结构 化 文件 的 形式 存 
储 在 HDFS 上， 要 么 存储 在 Hive 并 保留 了 RDBMS 接 口 。 这 是 一 种 两 全 其 
美的 好 办 法 ， 用 户 既 可 以 通过 高 速 、 低 延迟 的 SQL 查询 访问 数据 规模 较 
小 的 新 数据 ， 也 可 以 通过 Hadoop 访 问 数据 规模 较 大 的 存档 文件 。 因 此 ， 
无 论 用 户 通过 哪 种 方式 ， 都 能 访问 目标 数据 。 既 支持 新 数据 查询 ， 也 文 
持 存 档 数据 查询 的 存储 平台 尤其 需要 采用 这 种 方案 。 


由 于 Hadoop 的 扩展 性 极 强 ， 这 种 模型 具有 很 好 的 成 长 潜力 。 有 了 它 ， 我 
们 可 以 持续 不 断 地 增加 存档 数据 的 容量 ， 但 同时 也 能 够 对 其 进行 分 析 。 


























9.1.2 ”使 用 Hadoop 进 行 数据 预 处 理 


在 讨论 Hive 的 时 候 我 们 曾 多 次 强调 ， 有 些 情况 下 运行 预 处 理 作 业 或 以 其 
他 方式 净化 数据 是 非常 有 用 的 。 但 不 幸 的 是 ， 在 大 多 数 大 数据 处 理 案例 
中 ， 大 量 数据 来 自 于 多 个 数据 源 ， 这 就 意味 着 这 些 数 据 中 间 必 然 存 在 错 
误 数 据 。 尽 管 大 多 数 MapReduce 作 业 只 会 处 理 其 中 部 分 数据 ， 但 我 们 仍 
希望 找 出 全 部 的 不 完整 数据 或 错误 数据 。 最 好 先 预 处 理 数据 ， 然 后 再 把 
它们 存 入 Hive， 传 统 的 关系 数据 库 同样 如 此 。 


Hadoop 非 常 适 合 完成 这 个 任务 ， 它 从 多 个 数据 源 获取 数据 ， 进 行 必要 的 
站 


9.1.3 ”使 用 Hadoop 作 为 数据 输入 工具 


Hadoop 不 仅 能 净化 数据 ， 使 其 更 适合 导入 关系 数据 库 。 而 且 ， 它 还 可 以 
用 于 生成 其 他 数据 集 或 数据 视图 ， 然 后 在 关系 数据 库 中 使 用 这 些 结 

举 个 例子 ， 常 见 的 应 用 场景 是 ， 我 们 不 仅 希望 显示 某 个 账号 的 主要 数 
据 ， 也 想 同时 显示 根据 账号 使 用 情况 生成 的 二 级 数据 。 其 实 就 是 对 前 几 
个 月 不 同 消费 类 型 的 交易 进行 汇总 。 这 些 数据 存储 在 Hadoop 中 ， 基 于 这 
些 数据 可 以 生成 实际 汇总 ， 把 它们 也 存储 在 数据 库 中 以 便 快 速 查询 。 


9.1.4 数据 循环 


实际 情况 往往 要 比 这 些 单一 的 场景 复杂 得 多 。 通 常 ，Hadoop 和 关系 数据 
库 之 间 的 数据 流 是 环形 或 弧 形 的 ， 而 不 是 简单 的 从 Hadoop 到 关系 数据 库 
或 从 关系 数据 库 到 Hadoop 的 线性 路 径 。 例 如 ， 数 据 可 能 先 经 过 Hadoop 
的 预 处 理 ， 然 后 存储 在 关系 数据 库 中 ， 接 着 又 频频 与 某 些 运算 的 结果 聚 
合 ， 再 把 相应 的 结果 存 入 数据 库 。 某 些 不 太 和 常用 的 数据 符合 一 定 的 标准 
之 后 ， 用 户 就 会 从 数据 库 中 删除 这 些 数据 ， 但 还 要 在 Hadoop 上 存档 。 


先 不 考虑 这 些 复 杂 的 情况 。 在 把 Hadoop 集 成 到 已 有 IT 系统 的 时 候 ， 保 证 
数据 在 Hadoop 和 关系 数据 库 之 间 的 流动 能 力 至 关 重 要 。 接 下 来 ， 我 们 将 
学 习 具 体 的 实现 方法 。 




















9.2 ”配置 MySQL 


在 癌 关 系数 据 库 进 行 读 写 操作 之 前 ， 我 们 首先 需要 一 个 正在 运行 的 关系 
数据 库 。 由 于 MySQL 数 据 库 可 免费 使 用 且 应 用 范围 极 广 ， 得 到 了 许多 
开发 者 的 青睐 ， 因 此 本 章 使 用 MySQL 数 据 库 作 为 关系 数据 库 的 代表 。 
当然 ， 读 者 可 以 选用 JDBC 了 驱动 支持 的 任何 关系 数据 库 ， 但 如 果 读 者 选 
用 了 了 MySQL 之 外 的 其 他 关系 数据 库 ， 在 与 数据 库 服 务 占 建立 连接 时 需 
要 作出 相应 的 调整 。 





9.3 ”实践 环节 : 安装 并 设置 MySQL 


本 节 将 学 习 如 何 安装 并 配置 MySQL， 赋 予 用 户 基本 的 数据 库 操 作 权 限 
和 访问 权限 。 


1. 


在 Ubuntu 主 机 上 ， 使 用 apt-get 命令 安装 MySQL。 


$ apt-get update 
$ apt-get install mysql-server 








. 根据 提示 ， 为 root 用 户 设 置 一 个 合适 的 密码 。 
. 安装 完成 后 ， 连 接 到 MySQL 服 务 器 。 


$ _ mysql -h localhost -u root -p 





. 按照 提示 ， 输 入 root 密 码 。 


Welcome to the MySQL monitor. Commands end with ; or \g. 
Your MySQL connection id is 46 


Mysql> 











. 新 建 一 个 数据 库 ， 用 于 演示 本 章 讲 到 的 例子 。 


Mysql> create database hadooptest; 





上 述 命令 的 执行 结果 如 下 。 


Query OK, 1 row affected (6.66 sec) 





6. 新 建 一 个 用 户 帐户 ， 并 赋予 该 用 户 全 部 数据 库 权 限 。 


Mysql> grant all on hadooptest.* to 'hadoopuser'@'%' identified by 





述 命令 的 执行 结果 如 下 。 


Query OK, © rows affected (6.61 sec) 





7. 重新 加 载 用 户 权 限 ， 使 上 一 步 的 配置 生效 。 


Mysql> flush privileges; 





述 命令 的 执行 结果 如 下 。 


Query OK, © rows affected (6.61 sec) 





8. 退出 root 用 户 账 号 。 


mysql> quit; 


上 述 命令 的 执行 结果 如 下 : 


| 





9. 使 用 hadoopuser 帐 号 登录 ， 根 据 提示 输入 密码 。 


$ mysql -u hadoopuser -p 





10. 切换 到 新 建 数 据 库 hadooptest。 


mysql> use hadooptest; 





11. 创建 一 个 测试 表 ， 然 后 删 掉 该 表 以 验证 该 用 户 具 备 确实 相应 的 操作 
权限 ， 随 后 退出 。 
mysql> create table tabletest(id int); 


mysql> drop table tabletest; 
mysql> quit; 





(id inc) ; 


reate 7ablLe tabletast(i 大 
KK rows affected (D.01 sec 


tabletest; 
ffoctod (0.00 5 





原理 分 析 


多 亏 apt 软件 包 管 理 器 的 神奇 作用 ， 我 们 可 以 非常 轻松 地 安装 像 MySQL 
这 样 的 复杂 软件 。 我 们 使 用 的 是 在 Linux 系 统 上 安装 软件 的 标准 流程 。 
在 Ubuntu 〈 以 及 许多 其 他 Linux 版 本 ) 系统 上 ， 请 求 下 载 MySQL 的 服务 
器 软件 包 会 同时 把 它 所 依赖 的 所 有 软件 包 都 下 载 到 客户 端 主机 ， 包 括 
MySQL 的 客户 端 安装 包 。 


在 安装 过 程 中 ， 系 统 会 提示 用 户 输入 数据 库 的 root 口 令 。 即 使 该 数据 库 
仅 作 实验 之 用 ， 用 户 不 会 在 该 数据 库 中 存储 任何 有 价值 的 数据 ， 仍 有 必 
要 为 root 用 户 设置 一 个 强 口 令 。 为 root 用 户 设置 弱 口 令 的 习惯 非常 粳 

糙 ， 我 们 坚决 反对 这 种 行为 。 


安装 好 MySQL 之 后 ， 我 们 使 用 mysq1 命令 行 工 具 连 接 到 数据 库 。 该 命 
令 有 多 个 选项 ， 但 我 们 仅 会 用 到 以 下 几 个 。 


。 -h : 该 选项 用 于 指定 要 连接 的 数据 库 的 主机 名 《 缺 省 状态 下 指 的 
是 本 地 主机 〉; 


。 -U : 该 选项 用 于 指定 使 用 哪个 用 户 账 号 连接 数据 库 〈 默 认 情 况 下 








指 的 是 当前 Linux 用 户 ) ; 
。 -p : 该 选项 用 于 指定 用 户口 令 。 


MySQL 文 持 多 数据 库 ， 每 个 数据 库 都 是 一 组 表 的 集合 ， 同 时 每 个 表 都 
必须 从 属于 某 个 数据 库 。MySQL 已 经 内 置 了 几 个 数据 库 ， 但 我 们 要 新 
建 一 个 测试 用 的 数据 库 ， 因 此 我 们 使 用 CREATE DATABASE 语句 新 建 了 
一 个 名 为 hadooptest 的 数据 库 。 


除非 用 户 被 明确 赋予 执行 所 需 操作 的 权限 ， 人 否则 MySQL 不 会 执行 任何 
数据 库 操作 。 我 们 不 想 以 root 用 户 的 映 份 完成 所 有 任务 (使 用 root 权 限 
进行 所 有 数据 库 操作 不 仅 是 一 个 坏 习 惯 ， 同 时 也 存在 巨大 的 风险 ， 因 为 
root 用 户 可 以 修改 或 删除 任何 数据 ) ， 因 此 我 们 使 用 GRANT 语句 新 建 了 
一 个 名 为 hadoopuser 的 用 户 。 


我 们 使 用 GRANT 语句 完成 以 下 3 个 任务 : 
。 创建 hadoopuser 账号 ; 
。 为 hadoopuser 用 户 设置 口令 。 虽 然 本 例 中 我 们 使 用 password 作 
为 该 用 让 的 口令 ， 但 用 户 千 万 不 要 这 样 做 ， 而 应 当选 用 容易 记 住 的 
学 符 和 组 合 :; 


。 赋予 hadoopuser 用 户 全 部 权限 ， 使 其 可 以 对 hadooptest 数据 库 
及 组 成 该 数据 库 的 所 有 数据 表 执 行 任何 操作 。 


我 们 通过 FLUSH PRIVILEGES 命令 确保 这 些 设置 生效 ， 然 后 退出 root 账 
号 ， 并 以 hadoopuser 的 身份 连接 到 服务 器 ， 查 看 数据 库 工 作 是 否 正常 。 


本 例 中 的 UsE 语句 有 些 多 余 。 以 后 ， 我 们 可 以 在 mysq1 命令 行 工作 中 加 
入 要 访问 的 数据 库 名 ， 这 样 就 会 自动 切换 到 那个 数据 库 。 

使 用 新 用 户 成 功 连接 到 数据 库 是 个 好 光头， 但 为 了 确信 有 所 有 设置 均 已 生 
效 ， 我 们 在 hadooptest 数据 库 中 新 建 一 个 表 ， 然 后 删除 该 表 。 上 述 操 
作 的 成 功 表明 hadoop 用 户 确 实 拥 有 修改 数据 库 的 权限 。 


小 心中 吕 的 原因 























我 们 是 不 是 有 点 太 过 谨慎 了 ， 非 要 仔细 检查 MySQL 的 每 一 步 设置 。 但 
是 ， 我 曾经 发 现 ， 某 些 细微 的 拼写 错误 ， 尤 其 是 在 GRANT 语句 中 ， 都 会 
导致 一 些 很 难 发 现 的 问题 。 为 了 确保 不 出 错 ， 我 们 接 下 来 要 修改 
MySQL 的 默认 配置 ， 其 实 我 们 并 不 需要 这 么 做 ， 但 如 果 不 这 样 做 ， 将 
来 可 能 会 后 悔 。 


在 产品 数据 库 中 ， 用 户 当 然 不 能 像 书 中 这 样 随意 使 用 与 数据 库 安 全 性 密 
切 相 关 的 语句 ， 例 如 GRANT 。 一 定 要 查阅 数据 库 文 档 ， 完 全 弄 清楚 用 户 
账号 及 数据 库 权 限 的 相关 内 容 。 





9.4 实践 环节 : 配置 MySQL 人 允许 远程 连接 
MySQL 的 默认 设置 会 拒绝 其 他 主机 访问 数据 库 我 们 需要 对 此 进行 修 
改 。 





1. 使 用 用 户 最 喜欢 的 文本 编辑 器 编辑 /etc/mysql/my.cnf ， 找 到 下 
面 这 行内 容 。 


bind-address = 127.60.0.1 


2. 在 该 行 前 面 加 入 注释 符 “#”。 


# bind-address = 127.0.0.1 


3. 重启 MySQL 。 


$ restart mysql 


原理 分 析 


大 多 数 MySQL 的 默认 配置 只 允许 从 本 地 主机 访问 数据 库 。 从 安全 的 角 
度 来 看 ， 这 个 配置 无 疑 是 非常 正确 的 。 但 是 ， 它 也 会 引起 一 些 现实 问 
题 ， 例 如 ， 用 户 使 用 的 MapReduce 作 业 需 要 访问 远程 数据 库 。 用 户 会 发 
现 由 于 无 法 连接 数据 库 ， 作 业 最 终 失 败 。 在 这 种 情况 下 ， 用 户 在 
MySQL 主 机 上 启动 mysq1 命令 行 客户 端 ， 运 行 成 功 ， 没 有 发 现任 何 问 
题 。 之 后 ， 用 户 可 能 编写 一 个 用 于 测试 连通 性 的 JDBC 客 户 端 程序 。 同 
样 ， 也 没有 发 现 问 题 。 只 有 当 Hadoop 工 作 节 点 要 连接 MySQL 服 务 器 时 
才 会 出 现 上 述 问题 。 这 种 情况 同样 曾 困 扰 了 我 一 段 时 间 ! 








述 对 MySQL 默 认 设置 的 修改 会 把 MYSQL 绑 定 到 所 有 可 用 接口 ， 
| 可 以 从 远程 客户 端 访 问 MYSQL 数 据 库 。 


在 修改 默认 配置 后 ， 需要 重新 语 动 MySQL 服 务 器 。 在 Ubuntu 11.10 系 统 
中 ， A 千 移 到 了 Upstart 框架 ， 我 们 可 以 直接 手动 运 


行 restart 命令 


如 果 用 户 使 用 的 操作 系统 不 是 Ubuntu， 或 是 Ubuntu 的 其 他 版 本 ， 
MySQL 配 置 文件 在 主机 上 的 存储 位 置 可 能 稍 有 不 同 。 例 如 ， 在 CentOS 
和 Red Hat 企 业 版 操作 系统 上 ，MYySQL 配 置 文件 存放 在 /etc/my .cnf 目 
录 下 。 


禁止 尝试 的 一 些 操作 


至 少 要 考虑 后 琳 。 在 前 儿 个 例子 中 ， 我 们 为 新 建 用 户 账号 设置 了 弱 口 
令 ， 王 万 别 这 么 做 。 特 别 是 在 数据 库 文 持 远 程 访问 时 ， 千 万 不 能 设置 弱 
口令 ， 不 错 ， 这 只 是 一 个 测试 数据 库 ， 其 数据 没有 任何 价值 ， 但 令 人 乐 
诈 的 是 ， 很 多 测试 数据 库 的 使 用 时 间 都 很 长 ， 在 此 情 
况 下 ， 用 刀 是 否 会 记得 删除 配置 了 弱 口 令 的 用 户 账号 


讲 得 够 多 了 。 数 据 库 中 需要 数据 ， 接 下 来 ， 我 们 将 在 hadooptest 数据 
库 中 新 建 一 个 数据 表 ， 本 章 其 余 几 节 也 会 用 到 这 个 表 。 











9.5 实践 环节 : 建立 员工 数据 库 

大 多 数 数据 库 教 程 都 使 用 员工 数据 表 作为 示例 。 可 以 说 ， 如 果 不 讨 论 员 
工 数据 库 ， 那 么 数据 库 的 学 习 就 不 完整 。 因 此 ， 我 们 按照 惯例 ， 

在 hadooptest 数据 库 中 新 建 员 工 数据 表 。 


1. 新 建 employees .tsv 文件 ， 它 以 tab 键 为 分 隔 符 。 其 内 容 如 下 。 


Alice Engineering 566060 26069-603-12 
Bob Sales 356060 2011-10-61 

Camille Marketing 46060060 2063-604-26 
David Executive 75666 2661-63-26 


Erica Support 34660 2011-67-67 





2. 连接 MySQL 服 务 器 。 


$ mysql -u hadoopuser -p hadooptest 





3. 创建 数据 表 。 


Mysql> create table employees( 
first name varchar(16) primary key, 
dept varchar(15), 

salary int, 

start date date 

); 





4. 把 employees .tsv 文件 数据 导入 数据 表 : 





mysql> load data local infile '/home/garry/employees.tsyv' 
-> into table employees 
-> fields terminated by '\t' lines terminated by '\n' ; 


TU ~ 
Fle Edit View Terminal Help 
Server version: 5.1.66- reL14.1 (Percona Server (GPL), 14.1, Revision 495) 
Copyright (c) 2000, 2012, Oracle and/or its affiliates. ALL rights reserved. 


Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
owners. 


Type 'help;' or '\h' for help. Type RN。 to clear the current lnput statement. 


mysql> create table employees!( 
-> first _ name varchar(10) primary key, 
-> dept varchar(15), 
-> salary lnt， 
-> Start_date date) ; 
Query OK，0 rows affected (0.02 sec) 


mysqL> Load data local infile '/home/garry/employees.tsv' 
-> into table empLoyees 
-> fields terminated by '\t' lines termnated by ‘'\n'; 
Query OK, 5 rows affected (0.01 sec) 
Records: 5 Deleted: 0 Skipped: 0 Warnings: 0 


mysql> 目 





原理 分 析 


这 是 一 个 标准 的 数据 库 操作 流程 。 我 们 创建 了 一 个 以 tab 键 为 分 隔 符 的 
数据 文件 ， 在 数据 库 中 创建 数据 表 ， 然 后 使 用 LOAD DATA LOCAL 
INFILE 语句 将 文件 数据 导入 数据 表 。 


因为 我 们 的 目的 只 是 为 了 说 明 如 何 把 数据 导入 MYSQL 数据 库 ， 因 此 本 
例 中 使 用 了 一 个 很 小 的 数据 集 。 


留意 数据 文件 的 访问 权限 


别 忽 视 了 LOAD DATA 语句 中 的 LOCAL 关键 字 。 这 样 做 ，MySQL 会 以 
MySQL 用 户 的 身份 导入 数据 文件 ， 通 常会 引起 文件 访问 问题 。 





9.6 把 数据 导入 Hadoop 


我 们 前 期 已 做 了 大 量 努 力 ， 接 下 来 ， 我 们 看 看 如 何 从 MySQL 数 据 库 导 
出 数据 ， 并 导入 Hadoop。 


9.6.1 使 用 MySQL 工 具 手 工 导 入 


把 MySQL 的 导出 数据 导入 Hadoop 的 最 简单 方法 就 是 使 用 现 有 的 命令 行 
工具 和 MySQL 语 句 。 为 了 导出 整个 数据 表 或 整个 数据 库 的 内 容 ， 
MySQL 提 供 了 mysqldump 工具 。 为 了 进行 更 精确 的 数据 导出 ， 我 们 可 
以 使 用 下 述 SELECT 语句 。 


SELECT col1，col2 from table 
INTO OUTFILE ‘'/tmp/out.csyv' 
FIELDS TERMINATED by ',', LINES TERMINATED BY '\n'; 





一 旦 我 们 把 数据 导出 到 文件 中 ， 束 可 以 使 用 hadoop fs -put 把 该 文件 
移 到 HDFS 上 ， 或 通过 上 一 章 讲 过 的 方法 将 其 导入 Hive。 


一 展映 手 : 把 员工 数据 表 的 内 容 导 出 至 HDFS 


我 们 并 不 想 把 本 章 变 成 MySQL 教 程 。 请 自行 查看 mysqldump 工具 的 
语法 ， 然 后 用 它 或 SELECT ... INTO OUTFILE 语句 把 员工 数据 表 导 出 
到 以 tab 为 分 隔 符 的 文件 ， 随 后 将 该 文件 拷贝 至 HDFS。 


9.6.2 ”在 mapper 中 访问 数据 库 

对 我 们 的 小 例子 而 言 ， 上 述 方法 确实 不 错 。 但 如 果 读 者 需要 导出 一 个 更 
大 的 数据 集 ， 尤 其 是 要 用 MapReduce 作 业 处 理 导出 数据 的 时 候 ， 有 什么 
更 好 的 办 法 吗 ? 


一 种 直观 的 方法 是 ， 在 MapReduce 输 入 作业 中 直接 使 用 JDBC 从 数据 库 
读 取 数 据 并 写 入 HDFS， 为 后 续 的 数据 处 理 做 好 准备 。 


这 种 方法 虽然 有 效 ， 却 存在 一 些 不 太 明 显 的 问题 。 


读者 需要 仔细 考 碟 数据 库 可 以 承载 的 负 和 向。 在 一 个 规模 很 大 的 集群 上 运 
行 这 种 作业 会 迅速 拖 震 数据库 ， 因 为 成 和 二 上 万 个 mapper 要 同时 与 数据 库 
建立 连接 并 读 取 同 一 个 数据 表 的 内 容 。 最 简单 的 访问 模式 可 能 是 每 次 读 
取 一 行 数 据 ， 这 种 方法 的 效率 不 及 成 块 访问 方式 的 效率 高 。 即 使 数据 库 
能 够 承载 这 么 大 的 访问 量 ， 数 据 库 的 网 络 连 接 也 会 马上 成 为 瓶颈 问题 。 


为 了 让 所 有 mapper 能 够 平行 进行 数据 库 查 询 操 作 ， 用 户 需 要 制定 策略 ， 
把 数据 表 分 成 若干 段 ， 每 个 mapper 读 取 一 段 数据 。 用 户 需 要 考虑 的 另 一 
个 问题 是 ， 如 何 向 每 个 mapper 分 别传 递 数据 段 的 参数 。 


如 果 要 读 取 的 数据 段 比 较 大 ，Hadoop 框 架 很 可 能 会 终止 长 时 间 运 行 的 任 
务 ， 除 非 用 户 明 确 向 Hadoop 框 架 报告 任务 进度 。 


对 这 样 一 个 概念 很 简单 的 任务 来 讲 ， 需 要 做 的 工作 却 很 多 。 难 道 没有 一 
个 现成 的 工具 可 以 完成 这 样 的 工作 吗 ? 实际 上 ， 确 实 存 在 这 样 一 个 工 
有 其 ， 那 束 是 Sqoop， 本 革 剩 余部 分 将 介绍 它 的 应 用 。 


9.6.3 ”更 好 的 方法 : 使 用 Sqoop 


Sqoop 是 由 Cloudera (http://www.cloudera.com ) 创建 的 ， 这 家 公司 提供 
了 许多 Hadoop 相 关 的 服务 ， 同 时 也 制作 自己 的 Hadoop 软 件 安 装 包 。 第 


11 章 将 会 讲 到 这 些 内 容 。 


除了 提供 打包 的 Hadoop 产 品 外 ，Cloudera 公 司 也 创建 了 许多 大 众 可 以 使 
用 的 工具 ，Sqoop 便 是 其 中 之 一 。Sqoop 的 功能 正 是 我 们 想 要 实现 的 ， 它 
可 以 在 Hadoop 和 关系 数据 库 之 间 找 贝 数据 。 尺 管 Sqoop 最 初 由 Cloudera 
开发 ， 现 在 它 已 经 被 捐 给 了 Apache 软 件 基金 会 ， 其 主页 地 址 

是 http://sqoop.apache.org 。 








9.7 实践 环节 : 下 载 并 配置 Sqoop 
本 节 将 要 完成 Sqoop 的 安装 和 配置 工作 。 


1. 访问 Sqoop 主 页 ， 根 据 读者 使 用 的 Hadoop 版 本 选取 1.4.1 之 后 的 最 稳 
定 版 本 。 下 载 安装 文件 。 


2. 把 下 载 到 的 文件 揽 贝 至 目标 位 置 ， 然 后 解压 缩 。 


$mv sqoop-1.4.1-incubating_hadoop-1.6.6.tar.gz_ /usr/1local 
$ cd /usr/local 
$ tar -xzf sqoop-1.4.1-incubating_hadoop-1.9.6.tar.gz_ 





3. 制作 符 写 链接 。 


$ ln -s sqoop-1.4.1-incubating hadoop-1.60.0 sqoop 





4. 更 新 环境 变量 。 


$ export SQOOP HOME=/usr/local/sqoop 
$ export PATH=${SQOOP_ HOME}/bin:${PATH} 





5. 为 MySQL 数 据 库 下 载 JDBC 驱 动 程序 ， 其 地 址 为 
http://dev.mysql.com/downloads/connector/j/5.0.html。 


6. 把 下 载 到 的 mysql-connector-java-5.6.8-bin.jar 文件 找 入 
Sqoop 的 1ib 目录 : 





$ cp mysql-connector-java-5.60.8-bin.jar /opt/sqoop/lib 





7. 测试 Sqoop 安 装 是 售 成 功 。 


$ sqoop help 


上 述 命 令 的 执行 结果 如 下 所 示 。 


usage: sqoop COMMAND [ARGS ] 
Available commands: 

codegen Generate code to interact with database 
records 


version Display version information 


See 'sqoop help COMMAND' for information on a specific command . 





原理 分 析 


Sqoop 的 安装 过 程 并 不 复杂 。 从 Sqoop 主 页 下 载 到 所 需 版 本 (注意 要 选用 
与 Hadoop 版 本 匹配 的 安装 包 ) 的 安装 包 后 ， 我 们 把 它 找 贝 到 目标 位 置 并 
执行 解压 缩 操作 。 


和 其 他 工具 的 设置 过 程 一 样 ， 我 们 还 需要 设置 一 个 环境 变量 ， 并 把 
Sqoop 的 bin 目录 添加 到 环境 变量 中 。 这 样 ， 我 们 既 可 以 直接 在 shell 中 
调用 Sqdoop， 也 可 以 在 一 个 配置 文件 中 调用 Sqoop。 


Sqoop 要 用 到 MySQL 数 据 库 的 JDBC 驱 动 ， 因 此 我 们 下 载 MySQL 连 接 器 
并 把 它 找到 Sqoop 的 lib 目录 中 。 对 最 常用 的 数据 库 来 讨 ， 这 些 就 是 
0 如 果 读 者 想 使 用 别 的 数据 库 ， 请 查阅 Sqoop 文 


在 完成 上 述 最 小 安装 后 ， 我 们 在 命令 行 中 运行 sSqoop ， 以 验证 其 可 以 正 
站 二 一 
吊 运 条。 





提示 : ”读者 可 能 会 看 到 Sqoop 的 警告 消息 ， 它 提醒 读者 没有 定 
义 HBASE_HOME 变量 。 因 为 本 书 不 讨论 HBase 的 相关 内 容 ， 所 以 无 需 
设置 这 些 变量 ， 我 们 会 忽略 掉 这 些 警 告 。 


1. Sqgoop 和 Hadoop 的 版 本 


上 节 下 载 Sgoop 安 装 包 时 ， 我 们 多 次 强调 选用 合适 的 版 本 ， 在 以 前 下 载 
其 他 软件 时 并 没有 这 么 在 意 其 版 本 。 这 是 因为 ，1.4.1 版 之 前 的 Sqoop 对 
Hadoop 核 心 类 中 的 某 个 方法 存在 依赖 关系 ， 而 该 方法 只 存在 于 Cloudera 
提供 的 Hadoop 安 装 包 或 0.21 版 之 后 的 Hadoop 安 装 包 中 。 


遗憾 的 是 ，Hadoop 1.0 实 际 上 是 0.20 分 支 的 延续 ， 这 就 意味 着 ，Sqoop 
1.3 可 以 与 Hadoop 0.21 配 合 使 用 ， 却 无 法 与 0.20 或 1.0 版 的 Hadoop 配 合 使 
用 。 为 了 避免 这 些 软 件 版 本 带 来 的 厂 烦 ， 我 们 推荐 读者 使 用 1.4.1 之 后 
(包含 1.4.1) 的 Sqgoop， 它 们 不 会 对 Hadoop 产 生 依赖 关系 。 


无 需 再 对 MySQL 进 行 设 置 。 我 们 会 发 现 ， 如 果 服 务 器 拒绝 远程 客户 站 
的 连接 ， 可 以 通过 Sqoop 修 改 该 设置 。 











2. Sqgoop 和 HDFS 


我 们 可 以 执行 的 最 简单 的 导入 任务 就 是 把 数据 表 的 内 容 导 出 到 HDFS 的 
结构 化 文件 中 。 让 我 们 一 起 来 做 吧 。 


9.8 实践 环节 : 把 MySQL 的 数据 导入 HDFS 


本 节 将 演示 一 个 较为 简单 的 例子 ， 从 MySQL 数 据 表 读 取 数据 并 将 其 写 
入 位 于 HDFS 上 的 文件 。 


1. 运行 Sgqoop， 从 MySQL 导 出 数据 ， 保 存在 HDFS 上 。 


$ sqoop import --connect jdbc:mysql://16.6.9.166/hadooptest 
--Username hadoopuser \ > --password password --table employees 





2. 检查 输出 目录 。 


$ hadoop fs -ls employees 





上 述 命令 的 执行 结果 如 下 。 


Found 6 items 

-rw-r--r-- 3 hadoop supergroup 0 2012-65-21 64:16 / 
user/hadoop/employees/_SUCCESS 

drwxr-xr-x - hadoop supergroup 0 2012-65-21 64:16 / 
user/hadoop/employees/_logs 

-rw-r--r-- 3 . /user/hadoop/employees/part-m-66660 


-rw-r--r-- 3 . /user/hadoop/employees/part-m-66661 
-rw-r--r-- 3 . /user/hadoop/employees/part-m-6006062 
-rw-r--r-- 3 . /user/hadoop/employees/part-m-68006063 





3. 查看 其 中 一 个 结果 文件 的 内 容 。 


$ hadoop fs -cat /user/hadoop/emp1loyees/part-m-66661 





上 述 命 令 的 执行 结果 如 下 所 示 。 


Bob ,Sales,35666,2611-16-61 
Camille,Marketing,46666 ,260603-64-26 





原理 分 析 





我 们 直截了当 的 使 用 一 个 Sqoop 语 句 完 成 数据 的 村 入 导出 。 可 以 看 出 ， 
Sqoop 命 令 行 包 含 多 个 选项 ， 本 市 将 逐一 解释 其 用 法 。 


Sqoop 的 第 一 个 选项 是 要 执行 的 任务 类 型 ， 本 例 中 ， 我 们 希望 把 关系 数 
据 库 存储 的 数据 导入 Hadoop。--connect 选项 指定 了 数据 库 的 JDBC 
URI， 其 标准 格式 为 jdbc:<driver>://<host>/<database> 。 很 明 
显 ， 读 者 需要 根据 实际 情况 修改 其 中 的 服务 器 耳 或 者 主机 名 。 


我 们 使 用 - -username 和 --password 指定 用 于 连接 数据 库 的 用 户 账号 
和 口令 。 最 后 ， 使 用 - -table 指定 存储 目标 数据 的 数据 表 。 这 了 吏 是 需要 
用 户 配置 的 全 部 内 容 ， 剩 下 的 操作 由 Sqoop 完 成 。 

















Sdqoop 的 输出 相对 比较 繁琐 ， 但 一 定 要 阅读 这 些 内 容 ， 因 为 它 很 好 地 揭 
示 了 Sqoop 的 运行 过 程 。 


提示 : 重复 执行 Sqoop 可 能 会 引发 错误 ， 因 为 生成 的 文件 已 经 存在 。 
目前 请 忽略 该 错误 。 


首先 ， 在 上 述 步 又 中 ， 我 们 发 现 Sqoop 提 示 我 们 不 要 使 用 --password 
选项 ， 因 为 它 本 身 就 是 不 安全 的 。Sqoop 提 供 了 另 一 个 提示 用 户 输入 口 
令 的 -P 命令 ,今后 就 用 它 代 蔡 --password 选项 。 


Sdqoop 还 抛 出 一 个 警告 信息 ， 千 诉 我 们 使 用 文本 主键 是 一 种 糟糕 的 做 
法 ， 稍 后 将 详细 讨论 这 个 话题 。 


在 完成 所 有 配置 之 后 ，Sqoop 抛 出 多 个 警告 信息 ， 但 是 ， 我 们 发 现 Sqoop 
成 功 执行 了 MapReduce 作 业 。 


默认 情况 下 ，Sqoop 把 输出 文件 放 到 用 户 根 目录 下 的 某 个 目录 中 。 存 储 
输出 文件 的 目录 名 与 数据 表 的 名 称 完全 相同 。 为 了 验证 这 一 点 ， 我 们 使 
用 hadoop fs -1s 检查 该 目录 ， 结 果 发 现 其 中 包含 多 个 文件 。 对 这 么 
小 的 数据 表 而 言 ， 输 出 文件 的 数量 多 于 我 们 的 预期 。 请 注意 ， 我 们 稍微 
紧缩 了 一 下 输出 ， 主 机 束 能 每 行 显示 一 条 记录 。 


接着 ， 我 们 检查 其 中 一 个 输出 文件 的 内 容 ， 从 中 发 现 了 输出 多 个 文件 的 
原因 。 即 使 数据 表 很 小 ，Sqoop 仍 然 使 用 多 个 mapper 读 取 其 内 容 ， 因 此 
相应 地 出 现 了 多 个 输出 文件 。 默 认 情 况 下 ，Sqoop 会 使 用 4 个 map 任 务 。 

本 例 稍 微 有 点 特别 ， 通 常 要 导入 HDFS 的 数据 非常 大 。 由 于 我 们 想 把 数 
据 拷 到 HDFS， 今 后 很 可 能 使 用 MapReduce 作 业 处 理 这 些 数据 ， 因 此 输 

出 多 个 文件 非常 合适 。 

。 Mapper 及 主键 

通过 手工 方式 把 文本 列 设 为 员工 数据 库 的 主键 列 ， 我 们 故意 设置 了 这 个 
场景 。 实 际 上 上， 一般 使 用 上 自动 增长 的 、 员 工 的 数字 ID 作为 主键 。 但 是 ， 


使 用 文本 主键 突出 了 Sqoop 处 理 数 据 表 的 方式 ， 以 及 主键 在 数据 处 理 过 
程 中 的 作用 。 


Sqoop 根 据 主键 列 的 内 容 决 定 如 何 把 源 数 据 分 段 ， 然 后 用 多 个 mapper 分 
别 读 取 各 段 数 据 。 但 是 ， 这 就 意味 着 ， 数 据 分 段 方 法 依赖 于 字符 串 对 





























比 ， 在 大 小 写 不 完善 的 情况 下 ， 结 果 可 能 有 所 偏差 。 最 理想 的 情况 是 使 
用 数字 列 作为 主键 列 。 


或 者 ， 可 以 使 用 -m 选项 控制 mapper 的 数量 。 如 果 我 们 使 用 -m 1 ， 
Sqoop 只 会 用 到 一 个 mapper， 这 束 没 必要 根据 主键 列 进行 数据 分 段 。 对 
0 我 们 可 以 通过 这 种 方式 保证 只 有 一 个 输出 
全 


这 不 仅仅 是 一 个 选项 ， 如 果 读者 不 用 主键 从 数据 表 导 出 数据 ，Sqoop 将 


会 失败 并 抛 出 错误 ， 提 醒 用 户 从 这 种 数据 表 导 出 数据 的 唯一 办 法 就 是 明 
确 设置 只 使 用 一 个 mapper。 


。 其 他 选项 
在 导入 数据 时 ， 千 万 别 产 生 Sqoop 无 所 不 能 或 一 无 所 长 的 偏见 。 用 户 还 
可 以 使 用 其 他 几 个 Sqoop 选 项 指定 、 限 定 和 修改 从 数据 库 提取 的 数据 。 


我 们 会 在 后 续 几 市 讨论 Hive 的 时 候 说 明 这 些 选项 的 作用 ， 但 请 记 住 ， 其 
中 大 多 数 选项 也 可 用 于 把 数据 库 数据 导入 HDFS。 


Sqoop 的 体系 结构 








上 一 节 我 们 已 看 到 Sqoop 运 作 正 常 ， 现 在 有 必要 花 点 时 间 弄 清楚 它 的 体 
系 结构 及 工作 原理 。 在 很 多 方面 ，Sqoop 和 Hadoop 的 交互 方式 与 Hive 和 
Hadoop 的 交互 方式 完全 相同 。 它 们 都 是 一 个 独立 的 客户 端 程序 ， 可 以 创 
建 一 个 或 多 个 MapReduce 作 业 来 执行 任务 。 


Sdqoop 不 包含 任何 服务 器 进程 ， 我 们 运行 的 命令 行 客 户 端 就 是 其 全 部 内 
容 。 但 是 ， 因 为 它 能 为 手头 特定 的 任务 生成 合适 的 MapReduce 代 码 ， 
此 它 更 能 有 效 利用 Hadoop。 


上 节 讲 到 的 基于 主键 切 分 RDBMS 中 源 数 据 表 的 例子 就 很 好 地 说 明了 这 
一 点 。Sqoop 知 道 MapReduce 作 业 中 将 要 用 到 的 mapper 数 量 〈 前 几 节 
提 到 ， 默 认 设 置 为 4) ， 基 于 此 信息 ， 它 可 以 对 源 数据 表 进 行 智 能 分 
块 。 





假设 用 4 个 mapper 处 理由 100 万 条 记录 组 成 的 表 ， 那 么 每 个 mapper 要 处 理 
2 50 000 条 记录 。 借 助 主键 列 的 信息 ，Sqoop 可 以 创建 4 条 SQL 语句 获取 
数据 ， 每 条 语句 都 限定 了 目标 数据 的 主键 范围 。 在 最 简单 的 情况 下 ， 仅 





需 在 第 一 条 SQL 语句 中 加 入 NHERE id BETWEEN 1 and 256666 这 样 的 
声明 ， 并 在 其 他 语句 中 限定 不 同 的 id 范围 。 


我 们 还 会 学 习 把 Hadoop 数 据 导入 关系 数据 库 这 一 反 回 操作 的 实现 ， 其 中 
再 次 用 Sqoop 实 现 多 个 mapper 并 行 获取 数据 ， 并 优化 同 关 系数 据 库 插入 
数据 的 过 程 。 但 是 ， 所 有 这 些 智 能 控制 都 是 在 运行 于 Hadoop 上 的 
MapReduce 作 业 中 实现 的 。Sqoop 命 令 行 客 户 端 程 序 只 负责 高 效 生 产 
MapReduce 代 人 码 ， 之 后 便 不 参与 数据 处 理 过 程 。 


使 用 Sqoop 把 数据 导入 Hive 
Sdqoop 与 Hive 的 集成 意义 重大 ， 这 惑 可 以 把 关系 数据 库存 储 的 数据 导入 


新 建 或 现 有 的 Hive 数 据 表 。 可 以 通过 多 种 方式 实现 这 一 过 程 ， 但 我 们 还 
是 从 一 个 简单 采 例 入 手 。 








9.9 实践 环节 : 把 MySQL 数 据 导出 到 Hive 


本 例 中 ， 我 们 将 把 一 个 MySQL 数据 表 中 的 所 有 数据 导入 Hive 中 相应 的 
数据 表 。 读 者 首先 需要 按照 上 一 章 的 讲解 完成 Hive 的 安装 和 配置 工作 。 


1. 删除 上 节 创 建 的 输出 目录 。 


$ hadoop fs -rmr employees 





上 述 命令 的 执行 结果 如 下 。 


Deleted hdfs://head:9666/user/hadoop/emp1loyees 





2. 人 确认 Hive 中 不 存在 employees 数 据 表 。 


$ hive -e "show tables like ‘'employees'" 





上 述 命 令 的 执行 结果 如 下 。 


OK 
Time taken: 2.318 seconds 





3. 使 用 Sqoop 执 行 数据 导入 任务 。 





$ sqoop import --connect jdbc:mysql://16.96.9.166/hadooptest 
--Username hadoopuser -P 
--table employees --hive-import --hive-table employees 





4. 检查 Hive 中 的 内 容 。 


$ hive -e "select * from employees" 





上 述 命令 的 执行 结果 如 下 。 


Engineering 56666 2669-63-12 
Camille Marketing 46666 2663-604-26 
David Executive 75666 2661-63-26 
Erica Support 34666 2611-67-67 


Time taken: 2.739 seconds 





5. 检查 Hive 中 已 创建 的 数据 表 。 


$ hive -e "describe employees" 


上 述 命令 的 执行 结果 如 下 。 


OK 

first_name string 
dept string 
salary int 
start_date string 


Time taken: 2.553 seconds 





原理 分 析 


本 例 中 用 到 了 Sqoop 的 两 个 新 选项 : --hive-import 选项 指明 数据 的 日 
标 存 储 位 置 是 Hive 而 非 HDFS，- -hive-table to 则 指明 了 Hive 中 用 于 
存储 导入 数据 的 数据 表 。 


事实 上 ， 如 果 Hive 中 存储 导入 数据 的 表 与 - -table 选项 指定 的 源 数 据 表 
一 致 的 话 ， 无 需 专门 指明 Hive 表 名 。 但 是 ，- -hive-table to 选项 使 
它 变 得 更 明确 ， 因 此 我 们 通常 都 要 用 到 该 选项 。 


和 以 前 一 样 ， 一 定 要 从 头 到 尾 仔 细 阅 读 Sqoop 的 输出 ， 因 为 它 能 揭示 
Sqoop 的 运行 情况 ， 最 后 几 行 表明 数据 成 功 导 入 了 新 建 的 Hive 表 。 


我 们 看 到 ，Sqoop 从 MySQL 获 取 了 5 行 数 据 ， 然 后 就 把 它们 拷贝 到 HDFS 
并 导入 Hive。 接 下 来 我 们 会 讨论 关于 类 型 转换 的 警告。 


Sqoop 完 成 数据 导入 任务 后 ， 我 们 从 新 建 的 Hive 表 中 读 取 数据 以 确认 结 
果 和 预期 一 致 。 接 着 ， 我 们 检查 了 新 建 的 employees 表 的 定义 。 


这 时 ， 出 现 了 一 些 奇怪 的 现象 start_date 列 在 MySQL 数 据 库 中 
是 DATE 类 型 ， 而 现在 却 成 了 string 类 型 。 


Sqoop 运 行 时 输出 的 警告 信息 可 以 解释 这 个 现象 。 








12/65/23 13:606:33 NARN hive.TableDefWriter: Column start date had to be 
cast to a less precise type in Hive 





出 现 这 种 现象 的 原因 在 于 ， 除 TIMESTAMP 之 外 ，Hive 不 支持 其 他 临时 数 
据 类 型 。 如 果 被 导入 的 数据 是 与 时 间或 日 期 相关 的 其 他 类 型 ，Sqoop 会 
把 它 转换 成 string 类 型 。 稍 后 我 们 会 介绍 处 理 这 种 情况 的 办 法 。 


本 例 提 到 的 操作 非常 利 见 ， 但 我 们 并 非 总 是 想 把 整个 数据 表 导 入 Hive。 
有 时 ， 我 们 只 想 把 特定 几 列 数据 导入 Hive， 或 者 在 数据 导入 之 前 进行 得 
选 以 减少 数据 项 。Sqoop 可 以 用 于 这 两 种 场景 。 











9.10 ”实践 环节 : 有 选择 性 的 导入 数据 
接 下 来 ， 我 们 将 学 习 如 何 通过 条 件 语句 有 选择 地 把 MySQL 数 据 导 入 


了 Live。 


1. 删 挥 Hadoop 中 现 有 的 employees 目 录 : 


$ hadoop fs -rmr employees 





述 命令 的 执行 结果 如 下 : 


Deleted hdfs://head:9666/user/hadoop/emp1loyees 








2. 使 用 条 件 语句 导入 选中 的 数据 列 。 


sqoop import --connect jdbc:mysql://16.6.0.166/hadooptest 
--USername hadoopuser -P 

--table employees --columns first name,salary 

--where "salary > 456060" 

--hive-import --hive-table salary 





述 命令 的 执行 结果 如 下 。 


12/65/23 15:02:63 INFO hive.HiveImport: Hive import complete. 





3. 检查 新 建 的 Hive 数 据 表 。 


$ hive -e "describe salary" 


上 述 命令 的 执行 结果 如 下 。 


OK 


first_name string 
salary int 
Time taken: 2.57 seconds 





4. 检查 Hive 表 中 的 导入 数据 。 


$ hive -e "select * from salary" 


上 述 命令 的 执行 结果 如 下 。 


OK 

Alice 50000 

David 75060 

Time taken: 2.754 seconds 





原理 分 析 


这 次 ， 我 们 在 Sqoop 命 令 中 加 入 --columns 选项 ， 指 定 将 哪 几 列 的 数据 
导入 Hive。 该 参数 的 值 是 以 逗号 为 分 隔 符 的 列表 。 


我 们 还 用 到 了 - -where 选项 ， 用 它 指定 数据 筛选 条 件 ， 其 作用 相当 于 
SQL 语句 中 的 NHERE 子 句 。 





组 合 使 用 上 述 两 个 选项 ， 意 味 着 Sqoop 只 会 把 薪水 值 大 于 WHERE 子 句 指 
定 的 门限 值 的 员工 姓名 和 薪水 导入 Hive。 


在 成 功 执行 Sqoop 命 令 后 ， 我 们 检查 了 Hive 中 创建 的 数据 表 。 我 们 发 


现 ， 表 中 确实 只 包含 姓名 和 薪水 两 列 ， 接 着 我 们 输出 表 的 内 容 ， 以 验证 
数据 导入 过 程 正确 地 应 用 了 判断 语句 。 


数据 类 型 的 问题 








我 们 在 第 8 章 曾 提 到 ，Hive 仅 支持 部 分 常用 的 SQL 数据 类 型 。 尤 其 是 ， 
目前 Hive 尚 不 支持 DATE 和 DATETIME 数据 类 型 ， 尽 管 这 确实 是 Hive 存 在 
的 一 个 问题 。 因 此 ， 今 后 很 有 可 能 Hive 会 加 入 对 这 两 个 数据 类 型 的 支 
持 。 本 章 前 几 节 讲 到 的 例子 就 受到 了 这 个 因素 的 影响 。 尽 管 
start_date 列 在 MySQL 中 的 数据 类 型 为 DATE ，Sqoop 在 导入 数据 时 抛 
出 类 型 转换 的 和 警告， 导致 该 列 在 Hive 中 的 数据 类 型 变 为 STRING 。 


Sqoop 提 供 了 一 个 有 用 的 选项 ， 也 就 是 说 ， 我 们 可 以 使 用 - -map- 
column-hive 选项 明确 指定 Hive 表 中 新 建 数据 列 的 数据 类 型 。 


9.11 实践 环节 : 使 用 数据 类 型 映射 
接 下 来 ， 我 们 使 用 类 型 映射 改进 数据 导入 过 程 。 
1. 删除 Hadoop 上 已 有 的 employees 目 录 。 


$ hadoop fs -rmr employees 





2. 明确 使 用 类 型 映射 执行 Sqoop 命 令 。 


sqoop import --connect jdbc:mysql://16.6.9.166/hadooptest 
--USername hadoopuser 

-P --table employees 

--hive-import --hive-table employees 

--map-column-hive start date=timestamp 





上 述 命令 的 执行 结果 如 下 。 


12/65/23 14:53:38 INFO hive.HiveImport: Hive import complete. 





3. 检 碍 新 建 数据 表 的 定义 。 


$ hive -e "describe employees" 





上 述 命 令 的 执行 结果 如 下 。 





OK 

first_name string 
dept string 
salary int 


start_date timestamp 
Time taken: 2.547 seconds 





4. 检查 导入 到 Hive 表 中 的 数据 。 


$ hive -e "select * from employees"; 





上 述 命令 的 执行 结果 如 下 。 


OK 

Failed with exception java.io.IOException:java.lang. 
IllegalArgumentException: Timestamp format must be yyyy-mm-dd 
hh :mm:ss[ .fffffffff] 


Time taken: 2.73 seconds 





原理 分 析 


本 节 用 到 的 Sqoop 命 令 行 与 最 初 从 MySQLF 回 Hive 导 入 数据 的 命令 类 似 ， 

只 是 新 增 了 一 个 列 映射 声明 。 我 们 指定 start_date 列 的 数据 类 型 

为 TIMESTAMP ， 除 此 之 外 ， 还 可 以 增加 其 他 声明 。 该 选项 的 值 是 以 逗号 
为 分 隔 符 的 列表 。 


在 确认 Sqoop 命 令 执行 成 功 后 ， 我 们 检查 了 新 建 的 Hive 数 据 表 并 验证 类 
型 映射 确实 发 挥 了 作用 ，start_date 列 的 数据 类 型 确实 是 TIMESTAMP 





接 痢 ， 该 过 程 以 失败 而 告终 ，Hive 抛 出 
一 个 类 型 格式 不 匹配 的 错误 信息 


仔细 想 想 ， 这 也 没什么 值得 惊讶 的 。 尽 管 我 们 指定 目标 列 的 数据 类 型 
为 TIMESTAMP ， 但 从 MySQL 导 入 的 数据 类 型 实 为 DATE ， 其 中 并 不 包 
含 TIMESTAMP 类 型 所 需 的 时 间 元 素 。 这 个 教训 要 牢记 。 保 证 使 用 正确 的 


数据 类 型 映射 只 是 解决 数据 类 型 问题 的 一 个 方面 ， 还 必须 同时 确保 目标 
数据 符合 指定 的 数据 类 型 的 要 求 。 


9.12 ”实践 环节 : 通过 原始 查询 导入 数据 
本 节 将 学 习 如 何 使 用 原始 的 SQL 查询 筛选 目标 数据 ， 并 将 其 导入 Hive 


O 


1. 


删除 Hadoop 上 现 有 的 employees 目 录 。 


$ hadoop fs -rmr employees 





. 删除 Hive 中 己 有 的 employees 数 据 表 。 


$ hive -e 'drop table employees' 





使 用 原始 查询 选 定 目标 数据 ， 使 用 Sqoop 命 令 将 其 导入 Hive。 


sqoop import --connect jdbc:mysql://16.6.9.166/hadooptest 
--Username hadoopuser -P 

--target-dir employees 

--query 'select first name, dept, salary, 
timestamp(start date) as start date from employees where 
$CONDITIONS 

--hive-import --hive-table employees 

--map-column-hive start date=timestamp -m 1 





. 检查 Hive 中 刚 创 建 的 employees 数 据 表 。 


$ hive -e "describe employees" 





上 述 命令 的 执行 结果 如 下 。 





OK 

first_name string 

dept string 

salary int 

start date timestamp 
Time taken: 2.591 seconds 





5. 检查 employees 数 据 表 中 的 数据 。 


$ hive -e "select * from employees" 





上 述 命令 的 执行 结果 如 下 。 


Engineering 566606 2069-63-12 06:606:66 
Sales 356060 2011-10-601 60:60:060 
Marketing 46060 2003-04-26 060:600:66 
Executive 75066 20601-03-26 660:600:600 


Erica Support 34660 2011-67-67 66:600:60 
Time taken: 2.769 seconds 





原理 分 析 





为 了 达到 目标 ， 我 们 使 用 了 一 种 截然 不 同 的 方法 完成 数据 导入 任务 。 以 
前 ， 我 们 指定 目标 数据 表 ， 然 后 使 用 Sqoop 命 令 导 入 其 部 分 或 全 部 数 
据 。 与 此 不 同 ， 本 例 使 用 --query 选项 明确 定义 一 个 SQL 碍 询 语句 ， 通 
过 该 语句 指明 要 导入 的 数据 范围 。 


在 SQL 语句 中 ， 我 们 选中 了 源 数 据 表 的 所 有 列 ， 并 使 用 timestamp() 方 
法 将 start_date 列 的 数据 转换 为 合适 的 类 型 〈 请 注意 ， 该 方法 仅 在 日 
期 的 基础 上 加 入 68:89 时 间 元 素 ) 。 我 们 为 该 函数 的 执行 结果 取 了 个 别 
名 ， 便 于 在 类 型 映射 选项 中 引用 这 些 数据 。 





因为 我 们 没有 指定 - -table 选项 ， 不 得 不 加 入 --target-dir 选项 以 指 
定 HDFS 上 的 输出 目录 。 


Sqoop 要 求 我 们 必须 在 SQL 语句 中 加 入 NHERE 子 句 ， 即 使 根本 不 会 用 到 
这 个 条 件 语句 。 不 指定 --table 选项 不 仅 意 味 着 Sqoop 无 法 自动 生成 存 
储 导 出 数据 的 路 径 名 ， 而 且 Sqoop 不 知道 从 哪个 表 中 获取 数据 ， 进 而 也 
不 知道 如 何 为 多 个 mapper 切 分 数据 。 在 --where 选项 后 紧 接 
$CONDITIONS 变量 的 意义 在 于 ，$CONDITIONS 变量 会 为 Sqoop 提 供 切 分 
数据 表 所 需 的 信息 。 


本 例 中 ， 我 们 采用 了 不 同 的 处 理 方式 ， 明 确 地 将 mapper 的 数量 设 为 1 ， 
避免 了 使 用 数据 分 块 子 句 。 


在 Sqoop 执 行 完 成 之 后 ， 我 们 检查 了 Hive 数 据 表 的 定义 ， 结 果 表 明 ， 所 
有 列 的 数据 类 型 都 完全 正确 。 接 着 ， 我 们 又 检查 了 表 中 数据 ， 这 次 查询 
终于 成 功 了 ， 因 为 start_date 列 的 值 已 转换 成 了 TIMESTAMP 类 型 。 


提示 : 我 们 曾 提 到 ， 用 户 可 以 使 用 Sqoop 只 提取 数据 库 中 的 部 分 数 
据 ，Sqoop 提 供 的 query 、where 和 columns 选项 可 以 限定 待 提取 数 
据 的 范围 。 需 要 注意 的 是 ， 这 些 选 项 可 以 用 于 所 有 Sqoop 数 据 导 入 任 
务 ， 而 与 导入 数据 的 目标 存储 位 置 无 关 。 














二 展 吴 于 


尽管 示例 中 的 数据 集 规模 太 小 ， 完 全 不 需要 对 其 进行 数据 切 分 ， 
但 $CONDITIONS 变量 仍 是 个 很 重要 的 工具 。 请 修改 上 例 ， 在 Sqoop 语 人 句 
中 使 用 多 个 mapper， 并 明确 定义 数据 分 块 语句 。 





1. Sqgoop 和 Hive 数 据 分 块 


我 们 在 第 8 半 对 Hive 数 据 分 块 进 行 了 大 量 讨 论 ， 并 强调 了 它 对 优化 大 规 
模 数 据 表 的 碍 询 效率 具有 重要 作用 。Sdoop 文 持 在 Hive 中 进行 数据 分 
块 ， 这 是 个 令 人 振奋 的 好 消息 ， 但 是 不 要 高 兴 得 太 早 ， 它 对 Hive 数 据 分 
块 的 支持 并 不 完整 。 


为 了 把 关系 数据 库 的 数据 导入 Hive 分 区 表 ， 我 们 使 用 - -hive- 
partition-key 选项 指定 分 区 列 ， 使 用 --hive-partition- value 














选项 指定 分 区 值 ，Sqoop 命 令 会 根据 该 值 决 定 把 导入 数据 插入 哪个 分 区 
表 中 。 


这 是 一 个 好 办 法 ， 但 用 户 必须 提供 相应 的 Sqoop 语 句 才 能 把 导入 数据 插 
入 茶 个 分 区 表 。 目 前 Sqoop 尚 不 提供 对 Hive 自 动 分 区 的 支持 。 如 果 读 者 
想 把 某 个 数据 集 插入 多 个 Hive 分 区 表 ， 只 能 多 次 通过 Sqoop 语 句 逐 表 插 
大 ， 





截至 目前 ， 我 们 一 直上 暗中 依赖 于 某 些 默认 设置 ， 但 现在 应 该 探讨 一 下 这 
些 内 容 。 原 始 文本 文件 以 制 表 符 为 分 隅 符 ， 但 读者 可 能 注意 到 ， 导 入 
HDFS 的 数据 却 以 逗号 为 分 隔 符 。 如 果 读 者 查看 /user/hive/ 
warehouse/employees (这 是 Hive 在 HDFS 上 存储 源 文件 的 默认 位 置 ) 
I 文件 中 的 记录 又 以 ASCII 码 001 作 为 分 隔 符 。 这 到 底 是 怎 
么 回 事 呢 ? 


在 第 一 个 例子 中 ， 我 们 使 用 Sqoop 的 默认 分 隔 符 ， 也 就 是 说 ， 使 用 逗号 
作为 字段 间 的 分 隔 符 ， 并 使 用 \n 作为 记录 间 的 分 隔 符 。 但 是 ， 当 Sqoop 
把 数据 导入 Hive 之 后 ， 却 又 使 用 Hive 的 默认 值 ， 也 就 是 使 用 ASCII 码 
001 (^A) 来 分 隔 字 段 。 


我 们 可 以 使 用 下 列 Sqoop 选 项 明确 设置 分 隔 符 。 


二 太 代 


。 fields-terminated-by : 设置 字段 间 分 隔 符 。 








。1lines-terminated-by : 设置 文本 行 分 隔 符 。 
。 escaped-by : 指定 转 义 字符 (例如 ，\) 。 
。 enclosed-by : 用 于 封闭 字段 的 字符 (例如 ，") 。 


。optionally-enclosed-by : 与 上 个 选项 相似 ， 但 不 是 强制 使 用 
的 。 


。mysql-delimiters : 使 用 MySQL 默 认 值 的 快捷 设置 。 
这 些 分 隅 符 看 似 多 得 吓人 ， 其 实 它们 并 不 像 这 些 术语 那样 难 懂 ， 有 SQL 


使 用 经 验 的 人 应 该 对 这 些 概 念 和 用 法 非常 熟悉 。 前 几 个 选项 无 需 过 多 解 
释 ， 但 封闭 字符 和 可 选 封闭 字符 的 含义 却 不 是 那么 明显 。 


这 两 个 选项 用 于 给 定 字段 中 包含 特殊 字符 的 情况 。 例 如 ， 某 个 文件 以 过 
号 为 分 隅 符 ， 其 中 茶 列 的 数据 类 型 为 string， 而 该 列 的 茶 个 值 中 包含 有 

有 逗号 。 在 这 种 情况 下 ， 我 们 要 把 该 字符 串 放 入 引号 ， 这 样 才能 保证 使 用 
逗号 作为 字段 分 隔 符 。 如 末 所 有 字段 都 需要 使 用 封闭 字符 ， 那 么 就 要 使 
用 “enclosed-by” 选 项 ， 而 如 果 只 是 部 分 字段 要 用 到 封闭 字符 ， 那 么 就 应 
该 使 用 “optionally-enclosed-by” 选 项 。 


9.13 ”从 Hadoop 导 出 数据 


我 们 曾 提 到 ，Hadoop 和 关系 数据 库 之 间 的 数据 流 是 一 个 线性 的 单 癌 过 
程 ， 这 是 非常 罕见 的 。 实 际 上 ， 我 们 更 常 遇 到 把 Hadoop 处 理 过 的 数据 插 
入 关系 数据 库 的 情况 。 接 下 来 ， 我 们 将 讨论 这 个 问题 。 


9.13.1 在 reducer 中 把 数据 写 入 关系 数据 库 


考虑 一 下 如 何 把 MapReduce 作 业 的 输出 数据 拷 入 关系 数据 库 ， 我 们 发 
现 ， 其 解决 方法 和 辐 Hadoop 导 入 数据 的 方法 类 似 。 


一 种 直观 的 方法 是 修改 reducer 代 码 ， 使 其 生成 每 个 键 及 对 应 的 值 之 后 ， 
直接 通过 JDBC 把 它们 插入 数据 库 。 我 们 不 必 像 从 关系 数据 库 导入 数据 
那样 考虑 如 何 对 源 数 据 分 段 ， 但 仍 要 考虑 数据 库 能 够 承载 的 儿科， 以 及 
是 人 盏 需要 考虑 长 时 间 运 行 任务 的 超时 间 题 。 此 外 ， 与 mapper 遇 到 的 问题 
一 样 ， 这 种 方法 要 对 数据 库 执行 多 次 查询 ， 而 每 次 查询 只 插入 一 条 数 
据 ， 其 效率 远 低 于 成 批 操作 。 


9.13.2 ”利用 reducer 输 出 SQL 数据 文件 


通常 ， 较 好 的 解决 办 法 不 会 围绕 负责 生成 输出 文件 的 MapReduce 作 业 下 
功夫 ， 而 重点 在 于 如 何 利用 它 。 


所 有 关系 数据 库 都 可 通过 定制 工具 或 是 LOAD DATA 语句 接收 源 文 件 里 的 
数据 。 因 此 ， 我 们 可 以 改写 reducer 的 数据 输出 方法 ， 使 其 更 易于 被 插入 
关系 数据 库 。 这 就 避免 了 考虑 reducer 带 给 数据 库 的 负担 ， 以 及 如 何 处 理 
长 时 间 运 行 任务 的 抹 烦 ， 但 需要 在 MapReduce 作 业 完 成 之 后 添加 一 个 步 
又 ， 把 输出 文件 的 数据 导入 关系 数据 库 。 


9.13.3” 仍 是 最 好 的 方法 
Sqoop 还 可 以 用 于 从 Hadoop 问 关系 数据 库 导 入 数据 ， 这 应 该 没什么 奇怪 
x 


的 。 如 果 读 者 曾 浏 览 过 Sqoop 使 用 帮助 或 其 在 线 文 档 ， 就 会 觉得 这 是 理 
所 当然 的 。 











9.14 实践 环节 : 把 Hadoop 数 据 导入 MySQL 
本 市 将 演示 如 何 把 HDFS 文 件数 据 导 入 MySQL 数 据 表 。 


1. 创建 newemployees.tsv 文件 ， 其 以 制 表 符 为 分 陋 符 ， 内 容 如 下 所 
外。 


Frances Operations 3406060 2012-63-61 
Greg Engineering 66666 2063-11-18 
Harry Intern 22060 2012-65-15 

Iris Executive 80666 2061-64-68 


Jan Support 28506 260609-63-30 





2. 在 HDFS 上 新 建 一 个 目录 ， 将 newemployees.tsyv 找 入 该 目录 。 


$hadoop fs -mkdir edata 
$ hadoop fs -put newemployees.tsv edata/newemployees.tsv 





3. 确认 employees 数 据 表 中 的 记录 数 。 


$ echo "select count(*) from employees" | 
mysql -u hadoopuser -p hadooptest 





上 述 命令 的 执行 结果 如 下 。 


Enter password : 
count(*) 
5 





4. 运行 Sqoop， 将 HDFS 上 的 文件 数据 导入 MySQL。 


$ sqoop export --connect jdbc:mysql1://16.6.6.166/hadooptest 
--Username hadoopuser -P --table employees 
--export-dir edata --input-fields-terminated-by "Nt 





上 述 命令 的 执行 结果 如 下 。 


12/65/27 67:52:22 INFO mapreduce.ExportJobBase: Exported 5 
records. 





5. 再 次 检查 employees 数 据 表 中 的 记录 数 。 


Echo "select count(*) from employees" 
| mysql -u hadoopuser -p hadooptest 





上 述 命令 的 执行 结果 如 下 。 


Enter password: 
count(*) 
16 





6. 检查 employees 数 据 表 中 的 数据 内 容 。 


$ echo "select * from employees" 
| mysql -u hadoopuser -p hadooptest 





上 述 命 令 的 执行 结果 如 下 。 


Enter password : 
first_name dept salary start date 
Alice Engineering 56666 26069-63-12 


Operations 34060 2012-63-61 
Engineering 66666 2063-11-18 
Intern 228060 2612-65-15 
Executive 86660 2001-64-68 
Support 28560 2669-63-30 





原理 分 析 


我 们 首先 创建 一 个 数据 文件 ， 并 在 该 文件 中 加 入 5 条 新 员工 数据 。 在 
HDFS 上 创建 一 个 存储 该 数据 文件 的 目录 。 


1 出 任务 之 前 ， 我 们 确认 MySQL 数 据 表 中 只 存储 了 原来 的 5 个 员 
工 数据 。 


Sqoop 命 令 的 结构 与 之 前 类 似 ， 最 大 的 变化 在 于 ， 使 用 的 是 export 命 
令 。 顾 名 思 义 ， 导 出 Hadoop 数 据 并 插入 关系 数据 库 。 


本 例 用 到 了 几 个 选项 ， 它 们 和 之 前 的 用 法 相同 ， 主 要 用 于 设置 要 连接 的 
连接 数据 库 使 用 的 用 户 账 号 和 口令 ， 以 及 要 把 数据 插入 哪 
数据 表 。 


因为 我 们 要 从 HDFS 导 出 数据 ， 因 此 需要 通过 --export-dir 选项 指定 

包含 竺 导出 数据 文件 的 目录 。Sqoop 会 生成 一 个 MapReduce 作 业 ， 然 后 

把 该 目录 下 的 所 有 文件 全 部 导出 ， 因 此 导出 目录 下 有 一 个 文件 还 是 多 个 

文件 对 于 导出 任务 没有 多 大 影响 。 默 认 情 况 下 ，Sqoop 会 使 用 4 个 

mapper， 如 果 读 者 需要 导出 大 量 文件 ， 那 么 增 大 mapper 的 数量 会 提高 作 

读者 可 以 尝试 一 下 ， 但 要 确保 数据 库 能 够 承载 这 么 多 的 
填 坟 。 


Sdqoop 用 到 的 最 后 一 个 选项 指明 了 源 文 件 使 用 的 分 隔 符 ， 本 例 使 用 制 表 
符 作 为 分 隔 符 。 读 者 需要 目 己 指明 数据 文件 的 格式 ，Sqoop 会 认为 每 条 
记录 的 字段 数 和 数据 表 的 列 数 保持 一 致 《尽管 Sqoop 文 持 空 字段 值 ) ， 
并 且 各 字段 由 指定 的 分 隔 符 分 开 。 




















在 Sqoop 命 令 成 功 执行 后 ， 它 癌 用 户 报告 已 导出 5 条 记录 。 随 后 ， 我 们 使 
用 mysql 工具 检查 数据 表 中 的 当前 记录 总 数 ， 并 接着 查看 数据 表 的 内 
容 ， 以 确认 新 员工 数据 和 原 有 的 员工 数据 都 存在 于 数据 表 中 。 


1. Sqoop 叶 入 和 导出 的 区 别 


尽管 Sqoop 导 入 和 导出 在 概念 上 和 命令 行 调用 方面 非常 相似 ， 但 它们 之 
间 存 在 许多 重要 区 别 ， 值 得 我 们 深入 研究 。 


首先 ， 在 使 用 Sqoop 导 入 数据 时 ，Sqoop 对 数据 结构 和 数据 类 型 的 了 解 更 

详细 一 些 。 但 是 ， 在 导出 数据 时 ，Sqoop 只 知道 源 文件 位 置 以 及 字段 和 

记录 间 的 分 隔 符 。 此 外 ，Sqoop 导 入 数据 时 可 根据 源 数 据 表 的 名 称 和 结 

da 
数据 下。 


使 用 Sqoop 导 入 数据 时 ，Sqoop 可 以 意识 到 源 数 据 与 Hive 表 中 各 列 的 数据 
类 型 是 否 匹 配 。 尺 管 之 前 对 DATE 类 型 和 TIMESTAMP 类 型 的 介绍 表明 
Sqoop 在 这 方面 做 得 不 是 很 完美 ， 但 至 少 不 必 等 到 数据 已 插入 Hive 表 之 
后 才 发 现 问题 。 而 对 S$Sqoop 导 出 而 言 ， 它 只 负责 高 效 读 取 各 字段 内 容 ， 

无 需 理 解数 据 类 型 。 假 如 用 户 很 幸运 ， 要 导出 的 数据 格式 非常 规整 ， 可 
能 不 会 有 什么 凡 烦 。 但 大 多 数 人 不 得 不 考虑 导出 数据 的 格式 转换 ， 尤 其 
是 数据 中 存在 空 字段 和 默认 值 的 情况 下 。Sqoop 文 档 深 度 讲 解 了 这 些 内 
容 ， 读 者 有 必要 认真 阅读 。 

















2. 插入 和 更 新 的 对 比 


上 个 例子 比较 简单 ， 我 们 向 关系 数据 库 导 入 的 古 全 新 数据 集 ， 它 可 以 与 
表 中 原 有 数据 同时 存在 。 默 认 情 况 下 ，Sqoop 导 出 数据 时 进行 了 一 些 列 
扩展 ， 它 把 每 条 记录 当做 一 行 新 数据 加 入 数据 表 。 


但 是 ， 如 果 我 们 以 后 想 更 新 数据 时 ， 例 如 ， 年 底 的 时 候 为 员工 涨 了 工 

资 ， 此 时 该 怎么 办 呢 ? 由 于 我 们 把 first_name 定义 为 数据 表 的 主键 ， 

人 
败 。 


在 这 种 情况 下 ， 我 们 可 以 在 Sqoop 命 令 中 设置 --update-key 选项 ， 通 
过 该 选项 指定 主键 ，Sqoop 就 会 根据 该 键 ( 也 可 以 是 以 逗号 分 隔 的 多 个 














键 ) 生成 UPDATE 语句 ， 达 到 更 新 原 有 记录 部 分 字段 的 目的 。 


提示 : 在 这 种 模式 下 ，Sqoop 将 会 略 去 与 现 有 键 的 值 不 匹配 的 记录 ， 
而 且 如 有 果 和 补 更 新 的 数据 多 于 一 行 ，Sqoop 也 不 会 抛 出 错误 信息 。 


假如 读者 想 在 更 新 现 有 数据 的 同时 ， 在 数据 表 中 加 入 并 不 存在 的 新 记 
录 ， 可 以 将 --update-mode 选项 设置 成 allowinsert 。 





二 撒 革 于 


新 建 一 个 数据 文件 ， 其 中 包含 3 条 新 员工 记录 ， 同 时 对 2 位 老 员 工 的 薪水 
进行 了 调整 。 使 用 Sqoop 的 村 入 模式 将 新 员工 数据 加 入 数据 表 ， 并 更 新 
老 员 工 的 薪水 数据 。 








3.Sqoop 和 Hive 导 出 


从 上 例 可 以 看 出 ，Sqoop 目 前 无 法 直接 将 Hive 数 据 表 导入 关系 数据 库 ， 
读者 对 此 不 会 感到 特别 吃惊 。 更 确切 地 说 ，Sqoop 中 提供 了 --hive- 
import 这 样 的 导入 选项 ， 却 没有 提供 类 似 的 导出 选项 。 


但 是 ， 在 某 些 情况 下 ， 我 们 可 以 解决 这 个 问题 。 假 如 Hive 数 据 表 以 文本 
形式 存储 数据 ， 我 们 可 以 设置 Sqgoop， 使 其 指向 HDFS 上 存储 这 些 表 数 据 
文件 的 位 置 。 如 果 数 据 表 存 储 的 是 外 部 数据 ， 这 就 更 简单 了 。 但 是 如 果 
Hive 数 据 表 进行 了 复杂 的 分 区 操作 ， 那 么 文件 目录 络 构 就 更 为 复杂 。 


Hive 数 据 表 中 也 可 以 存储 二 进 制 SequenceFile，Sqoop 的 一 个 缺点 在 于 其 
目前 无 法 透明 导出 这 种 格式 的 数据 。 


9.15 ”实践 环节 : 把 Hive 数 据 导 入 MySQL 


先 别管 Sqoop 的 这 些 缺 点 ， 本 市 将 展示 如 何 使 用 Sqoop 直 接 导 出 Hive 数 据 
表 的 数据 。 





1. 删除 employees 数 据 表 中 的 所 有 数据 。 


$ echo "truncate employees" | mysql -u hadoopuser -p hadooptest 





上 述 命令 的 执行 结果 如 下 。 


Query OK, © rows affected (6.61 sec) 





2. 查看 hive/warehouse/employees 的 内 容 。 


$ hadoop fs -ls /user/hive/warehouse/employees 





上 述 命令 的 执行 结果 如 下 。 


Found 1 items 
.Vuser/hive/warehouse/employees/part-m-60666 





3. 使 用 Sqoop 命 令 执行 数据 导出 任务 。 





sqoop export --connect jdbc:mysql://16.6.9.166/hadooptest 
--USsername hadoopuser -P --table employees \ 

--export-dir /user/hive/warehouse/employees 
--input-fields-terminated-by "\661 
--input-lines-terminated-by '\n' 





原理 分 析 


首先 ， 我 们 删除 MySQL 数 据 库 中 employees 数据 表 的 所 有 数据 ， 然 后 
确认 该 数据 表 位 于 /user/hive/warehouse/employees 目录 。 


提示 : ”请 注意 ，Sqoop 可 能 会 在 该 路 径 下 创建 一 个 空白 文件 ， 其 文件 
后 缀 为 _SUCCESS 。 如 果 该 目录 下 确实 存在 这 个 文件 的 话 ， 一 定 要 在 
运行 Sqoop 之 前 把 它 删除 。 


Sqoop 的 export 命令 与 以 前 的 用 法 相似 ， 唯 一 的 区 别 在 于 ， 本 例 中 源 数 
据 文 件 的 存储 位 置 发 生 了 变化 ， 并 且 明 确 指定 了 字段 和 文本 行 分 隔 符 。 
回忆 一 下 ， 在 默认 情况 下 ，Hive 分 别 使 用 ASCII 码 001 和 ANn 作为 字段 分 
隔 符 和 文本 行 分 隔 符 。 同 时 ， 由 于 我 们 同 Hive 导 入 数据 时 使 用 了 其 他 分 
隔 符 ， 因 此 需要 对 其 进行 检查 。 


运行 Sgoop 命 令 ， 发 现在 创建 java.sql.Date 实例 时 出 错 ， 错 误 原 因 
是 IllegalArgumentExceptions 。 

















这 个 问题 与 之 前 过 到 的 问题 刚好 相反 : 原来 把 MYSQL 数据 导入 Hive 数 
据 表 时 ， 由 于 Hive 不 支持 MySQL 中 的 DATE 类 型 ， 我 们 将 其 转换 成 Hive 
中 可 用 的 TIMESTAMP 类 型 。 在 把 Hive 数 据 重 新 导入 MySQL 数 据 表 时 ， 
我 们 却 遇 到 了 把 TIMESTAMP 类 型 的 数据 插入 DATE 数据 列 的 问题 。 在 不 
进行 数据 转换 的 情况 下 ， 这 是 无 法 实现 的 。 


这 两 个 例子 给 我 们 的 局 发 就 是 ， 单 同 数 据 转 换 呈 对 单 回 数据 流 有 效 。 一 
旦 需要 进行 双 疝 数据 传输 ，Hive 和 关系 数据 库 之 间 的 数据 类 型 不 匹配 问 
题 会 之 来 很 多 麻 焕 ， 必 须 在 数据 传输 之 前 首先 进行 数据 类 型 转换 。 








9.16 ”实践 环节 : 改进 mapper 并 重新 运行 数据 导 





但 是 ， 这 次 我 们 不 再 进行 数据 类 型 转换 ， 而 要 做 一 些 更 有 意义 的 事 一 
使 用 Hive 和 MySQL 都 文 持 的 数据 类 型 修改 employees 数 据 表 的 定义 。 


1. 启动 mysql 命令 行程 序 。 


$ mysql -u hadoopuser -p hadooptest 
Enter password: 





2. 修改 start_date 列 的 数据 类 型 : 


mysql> alter table employees modify column start date timestamp; 





上 述 命令 的 执行 结果 如 下 。 


Query OK, © rows affected (6.62 sec) 
Records: 6 Duplicates: 6 Warnings: 6 





3. 输出 employees 数 据 表 的 定义 。 


mysql> describe employees; 





DO hadooptesfr 


ey | Dofault 


NULL 
NULL 
NJLL 
CURPRENT TIMESTAP on date CLURRENT TIMESTANP 








4. 退出 mysq1 程序 。 


mysql> quit; 


5. 执行 Sqoop 导 出 命令 。 


sqoop export --connect jdbc:mysql://160.60.0.1060/hadooptest 
--Username hadoopuser -P -table employees 

--export-dir /user/hive/warehouse/employees 
--input-fields-terminated-by "\661 
--input-lines-terminated-by '\n' 





上 述 命令 的 执行 结果 如 下 。 


12/65/27 69:17:39 INFO mapreduce.ExportJobBase: Exported 16 
records. 





6. 检查 MySQL 数 据 库 中 的 记录 忆 数 。 


$ echo "select count(*) from employees" 


| mysql -u hadoopuser -p hadooptest 


上 述 命 令 的 执行 结果 如 下 所 示 。 


Enter password: 
count(*) 
16 





原理 分 析 


在 最 后 一 次 执行 Sqoop 导 出 命令 之 前 ， 我 们 使 用 mysq1 命令 行 工 具 连 接 
数据 库 ， 并 修改 了 start_date 列 的 数据 类 型 。 当 然 ， 千 万 不 能 随便 在 
生产 系统 中 执行 这 样 的 修改 ， 但 由 于 我 们 使 用 的 空白 的 测试 数据 表 ， 因 
此 不 会 带 来 什么 问题 。 


在 完成 这 些 修改 之 后 ， 我 们 重新 运行 Sqoop 导 出 任务 ， 这 一 次 终于 成 功 
了 。 


Sqoop 的 其 他 功能 


Sqoop 还 有 许多 其 他 功能 。 虽 然 我 们 不 再 详细 讨论 这 些 内 容 ， 但 仍 要 强 
调 一 下 它们 ， 以 便 感 兴趣 的 读者 在 Sqoop 文 档 中 得 阅 相 关内 容 。 


。 增 量 合并 


一 直 以 来 ， 我 们 接触 的 示例 都 是 比较 极端 的 。 确 实 ， 我 们 遇 到 的 大 多 数 
情况 都 是 癌 空 白 数据 表 导 入 数据 。 目 前 也 介绍 了 一 些 处 理 增 量 数据 的 方 
法 ， 但 Sqoop 提 供 了 其 他 针对 持续 的 数据 导入 任务 的 支持 。 


Sqoop 提 出 了 增 量 导 入 的 概念 。 举 个 例子 来 说 明 它 的 含义 ， 如 果 数 据 导 
入 任务 与 日 期 有 关 ， 只 有 茶 天 之 后 的 记录 才 会 极 导 入 。 这 就 需要 使 用 包 
括 Sqoop 在 内 的 工具 构建 一 个 长 期 运行 的 工作 流 。 





。 避免 部 分 导出 


我 们 已 经 有 发现， 把 Hadoop 数 据 导 出 到 关系 数据 库 时 有 可 能 会 出 现 错误 。 
在 我 们 的 例子 中 ， 这 个 问题 没什么 大 不 了 的 ， 因 为 该 错误 导致 所 有 记录 
都 无 法 导出 。 但 往往 会 出 现 导 出 部 分 数据 之 后 ， 导 出 任务 却 中 途 出 现 故 
障 的 情况 ， 这 时 数据 库 中 只 插入 了 部 分 数据 。 


Sdqoop 使 用 分 段 表 来 消除 这 个 风险 ， 它 把 所 有 数据 导入 这 个 二 级 表 ， 只 
有 成 功 插入 所 有 数据 后 ， 才 会 使 用 一 次 事务 把 分 段 表 的 数据 全 部 移 到 主 
表 中 。 该 方案 对 可 靠 性 较 差 的 工作 负载 非常 有 效 ， 却 也 带 来 了 一 些 重要 
的 限制 ， 例 如 它 不 文 持 更 新 模式 。 对 数据 量 很 大 的 导入 任务 ， 由 于 使 用 
了 一 个 长 时 间 运 行 的 事务 ， 也 会 对 关系 数据 库 的 性 能 和 负 衍 带 来 影响 。 


。 使 用 Sqoop 作 为 代码 生成 器 


我 们 一 直 都 忽视 了 Sqoop 运 行 过 程 中 出 现 的 一 个 错误 ， 2 
了 这 类 错误 一 一 由 于 Sqoop 所 需 代 码 早 已 存在 而 抛 出 的 异 


在 执行 数据 导入 任务 时 ，Sqoop 会 生成 Jave 类 文件 ， 通 过 这 些 Java 代 码 来 
访问 文件 中 的 字段 和 记录 。Sqoop 在 内 部 使 用 这 些 类 ， 但 这 旦 代 偶 并 让 
只 能 用 于 Sqoop 调 用 。 事 实 上 ， 通 过 Sqoop 的 codegen 命令 ， 可 以 在 数 
据 导 出 任务 结束 之 后 重新 生成 任务 用 到 的 Java 类 。 
































9.17 在 AWS 上 使 用 Sqoop 


截至 目前 ， 本 章 还 未 提 及 AWS， 这 是 因为 Sqoop 在 AWS 上 的 运行 情况 并 
无 特别 之 处 。 我 们 可 以 在 EC2 主 机 上 运行 Sqoop， 束 像 是 在 本 地 主机 上 
运行 Sqoop 一 样 。 而 且 ， 运 行 在 EC2 主 机 上 的 Sqoop 既 可 以 访问 手工 创建 
的 Hadoop 集 群 ， 也 可 以 访问 EMR 托 管 的 Hadoop 集 群 。 如 果 需 要 的 话 ， 
还 可 以 在 这 些 Hadoop 和 集群 上 运行 Hive。 唯 一 需要 考虑 的 问题 是 安全 组 访 
问 策略 (security group access) ， 因 为 许多 默认 的 EC2 配 置 选 项 拒绝 多 
数 关 系数 据 库 使 用 的 端口 (MySQL 的 默认 端口 是 3306) 发 起 的 连接 。 
但 是 ， 与 Hadoop 集 群 和 MySQL 数 据 库 分 别 位 于 防火 墙 或 其 他 网 络 安全 
边界 的 两 端 相 比 ， 这 根本 就 不 是 什么 问题 。 


使 用 RDS 


以 前 ， 我 们 从 没 提 过 AWS 的 RDS (Relational Database Service， 关 系数 
据 库 服务 ) ， 但 现在 很 有 必要 介绍 一 下 它 。RDS 提 供 了 托管 在 云端 的 关 
系数 据 库 ， 用 户 可 以 根据 需要 选用 MySQL、Oracle 和 Microsoft SQL 
Server。 使 用 RDS 服 务 ， 用 户 不 必 再 为 数据 库 的 安装 、 配 置 、 管 理 而 耗 
费 精力 ， 而 且 可 以 通过 RDS 控 制 台 或 命令 行 工 具 启 动 数 据 库 实例 。 用 户 
执行 使 用 数据 库 客 户 端 打 开 数 据 库 即 可 创建 数据 表 ， 并 操作 数据 。 


组 合 使 用 RDS 和 EMR 更 能 充分 发 挥 它 们 的 强大 作用 ， 这 些 托管 服务 省 去 
了 手动 管理 服务 器 集群 的 豚 烦 。 如 宋 该 者 要 用 到 关系 数据 库 ， 而 又 不 想 
在 数据 库 管 理 方 面 浪费 精力 ， 可 以 尝试 使 用 RDS。 


如 果 读 者 使 用 EC2 主 机 生成 数据 ， 或 在 S3 中 存储 数据 ， 那 么 组 合 使 用 
RDS 和 EMR 的 效果 更 为 明显 。Amazon 公 司 有 一 个 通用 规则 ， 在 相同 主 
机 上 ， 用 户 可 以 免费 在 不 同 服 务 之 间 传 输 数 据 。 因 此 ， 用 户 可 以 使 用 一 
批 EC2 主 机 生成 大 量 数据 ， 然 后 把 它们 插入 RDS 关 系数 据 库 以 便 查 询 ， 
并 把 它们 存储 在 EMR 作 为 档案 进行 长 期 分 析 。 把 数据 导入 存储 系统 和 处 
理 系 统 通 常 很 有 挑战 性 ， 经 常会 付出 极 大 的 代价 ， 尤 其 是 需要 在 不 同 商 
940 使 用 EC2、RDS 和 EMR 相 互 配 合 ， 可 以 减低 
这 些 成 本 。 





























9.18 ”小 结 


本 章 介 绍 了 Hadoop 和 关系 数据 库 的 集成 使 用 。 特 别 是 ， 我 们 研究 了 最 第 
用 的 采 例 ， 并 发 现 Hadoop 和 关系 数据 库 都 是 广 受 赞誉 的 技术 。 我 们 想 了 
儿 种 从 关系 数据 库 问 HDFS 导 出 数据 的 办 法 ， 并 意识 到 文本 主键 无 法 实 
现 数据 分 段 ， 并 且 需 要 特别 考虑 如 何 处 理 长 时 间 运 行 的 任务 。 


接着 ， 我 们 介绍 了 Sqoop。 这 是 Cloudera 公 司 捐 献 给 Apache 软 件 基金 会 
的 一 个 工具 ， 它 提供 了 实现 上 述 数 据 移动 的 框架 。 使 用 Sqoop 可 以 实现 
从 MySQL 癌 HDFS 或 Hive 的 数据 导入 ， 但 我 们 必须 考虑 数据 类 型 是 否 录 
容 的 问题 。Sqoop 还 可 以 实现 相反 操作 ， 也 就 是 把 数据 从 HDFS 导 入 
MySQL 数 据 库 。 该 过 程 要 考虑 更 多 问题 ， 人 简单 来 讲 ， 包 括 文件 格式 的 
问题 ， 插 入 数据 与 更 新 数据 的 区 别 ， 以 及 Sqoop 兼 容 性 的 问题 。 此 外 ， 
还 介绍 了 Sqoop 的 代码 生成 和 增 量 合并 功能 。 


关系 数据 库 在 大 多 数 IT 基 础 设施 中 处 于 重要 地 位 ， 甚 至 是 十 分 关键 的 。 
但 是 ， 并 不 等 于 系统 中 的 其 他 组 件 并 不 重要 。 最 近 ， 有 个 问题 变 得 日 益 
突出 ， 那 束 是 网 页 服务 器 和 其 他 应 用 程序 生成 的 日 志文 件 越 来 越 多 。 下 
一 半 我 们 将 介绍 Hadoop 如 何 存储 并 处 理 这 些 日 志 数 据 。 





第 10 章 ”使 用 Flume 收 集 数 据 


前 两 章 ， 我 们 介绍 了 Hive 和 Sqoop 为 Hadoop 实 现 的 类 似 关系 数据 库 的 
接口 ， 使 用 它们 可 以 与 “真正 的 ”数据 库 交 换 数 据 。 尺 管 这 是 非常 常见 
的 情况 ， 但 我 们 一 定 还 会 遇 到 想 把 许多 不 同类 别 的 源 数据 导入 Hadoop 
的 情况 。 

本 草包 括 以 下 内 容 : 
。 Hadoop 通 常 处 理 的 数据 类 别 ; 
。 把 数据 导入 Hadoop 的 简单 方法 ; 
。 Apache Flume 为 何 会 简化 数据 导入 任务 ; 
。 由 人 简 到 繁 的 Flume 配 置 ， 


。 需要 考虑 的 非 搁 术 问题 ， 如 数据 的 生命 周期 。 








10.1 关于 AWS 的 说 明 


全 书 中 ， 本 章 涉及 AWS 的 内 容 最 少 。 实 际 上 ， 除 本 节 之 外 ， 本 章 基 本 

不 涉及 AWS 的 内 容 。Amazon 没 有 提供 类 似 Flume 的 服务 ， 因 此 不 存在 专 
为 AWS 实 现 的 类 似 产品 可 供 研 究 。 男 一 方面 ， 无 论 在 本 地 主机 或 是 EC2 
虚拟 机 上 运行 FIume， 其 工作 原理 完全 相同 。 因 此 ， 本 章 其 余部 分 不 再 
对 示例 的 运行 环境 提 任 何 要 求 ， 它 们 在 任何 环境 中 的 运行 完全 相同 。 





10.2 无 处 不 在 的 数据 
在 讨论 Hadoop 与 其 他 系统 的 集成 问题 的 时 候 ， 很 容易 把 它 想 成 一 对 一 的 
模式 。 数 据 从 一 个 系统 中 流出 ， 经 过 Hadoop 系 统 的 处 理 ， 然 后 被 传 给 另 


一 个 


| ad rs O 
最 初 的 时 候 ， 事 情 可 能 确实 如 此 ， 但 实际 情况 往往 是 ， 要 用 一 系列 相互 
配合 的 部 件 循环 往复 地 处 理 数据 。 本 章 关 注 的 核心 问题 是 如 何 构 建 这 种 
可 维护 的 复杂 网 络 。 
10.2.1 ”数据 类 别 
为 了 便于 讨论 ， 我 们 把 数据 分 成 以 下 两 大 类 。 

。 网 络 流量 : 数据 由 某 个 系统 生成 并 通过 网 络 连接 进行 传输 。 

。 文件 数据 : 数据 由 某 个 系统 生成 并 被 写 入 文件 系统 上 的 文件 。 
我 们 认为 ， 这 两 类 数据 的 区 别 仅 仅 在 于 数据 获取 方式 不 同 。 














10.2.2 ”把 网 络 流 量 导 入 Hadoop 


我 们 讲 的 网 络 数 据 ， 指 的 是 通过 HTTP 连 接 从 网 络 服务 器 获取 的 信息 ， 
通过 客户 闯 应 用 程序 获取 的 数据 库 内 容 ， 或 者 通过 数据 总 线 发 送 的 消 
恩 。 在 以 上 各 种 情况 中 ， 要 么 是 通过 客户 问 应 用 程序 从 网 络 上 获取 数 
据 ， 要 么 通过 监听 菏 个 端口 等 竺 数据 。 


提示 : 接 下 来 的 几 个 例子 中 ， 我 们 会 使 用 curl 程序 接收 或 及 送 网 络 
A 








10.3 ”实践 环节 : 把 网 络 服务 器 数据 导入 Hadoop 
接 下 来 ， 我 们 将 介绍 如 何 简单 地 把 网 络 服务 器 数据 拷贝 至 Hadoop。 
1. 从 NameNode 的 网 页 接口 获取 文本 数据 ， 并 把 它 保存 到 一 个 本 地 文 





$ curl localhost:56676 > web.txt 


2. 查看 文件 大 小 。 


$ 1s -ldh web.txt 


上 述 命 令 的 执行 结果 如 下 。 


-rw-r--r-- 1 hadoop hadoop 246 Aug 19 68:53 web.txt 


3. 把 该 文件 拷贝 到 HDFS 。 


$ hadoop fs -put web.txt web.txt 


4. 查看 HDFS 上 的 文件 副本 。 


$ hadoop fs -1s 


上 述 命令 的 执行 结果 如 下 。 


Found 1 items 
-rw-r--r-- 1 hadoop supergroup 246 26012-08-19 68:53 / 
user/hadoop/web .txt 





原理 分 析 


上 例 并 没 讲 到 什么 新 奇 的 内 容 。 我 们 使 用 curl 程序 从 内 置 的 网 页 服务 
器 获取 NameNode 网 页 接口 的 页 面 内 容 ， 并 把 它 保 存 为 一 个 本 地 文件 。 
我 们 检查 了 文件 大 小 ， 把 它 拷 贝 至 HDFS， 并 验证 文件 拷贝 成 功 。 


这 一 系列 操作 本 喘 并 不 值得 特别 关注 一 一 它 无 非 是 第 2 章 曾 用 过 的 
hadoop fs 命令 的 男 一 种 用 法 。 真 正 值得 关注 的 是 采用 这 种 模式 的 原 
因 。 


尽管 我 们 可 以 通过 HTTP 协 议 访问 网 络 服务 上 的 数据 但 可 直接 使 用 的 
Hadoop 工 其 部 是 基于 文件 的 ， 并 不 支持 这 种 远程 的 信息 源 。 这 束 是 我 们 
需要 先 把 网 络 数据 拷贝 到 文件 中 ， 然 后 上 传 到 HDFS 的 原因 。 


当然 ， 我 们 可 以 通过 第 3 章 讲 到 的 编程 接口 直接 把 数据 写 入 HDFS， 这 
种 方法 也 会 成 功 。 但 是 ， 这 种 方法 需要 用 户 为 每 个 不 同 的 网 络 数据 源 编 
写 定制 的 客户 端 。 























一 展 时 于 





通过 编程 获取 数据 并 把 它 写 入 HDFS 是 一 种 很 强 的 能 力 ， 值 得 我 们 研 
究 。Apache HTTPClient 是 一 种 非常 流行 的 HTTP Java 库 ， 它 是 HTTP 
Components 项 目的 一 部 分 ， 其 网 址 

为 http://hc.apache.org/httpcomponents-client-ga/index.html 。 


像 刚 才 那 样 ， 使 用 HTTPClient 和 HDFS 的 Java 接 口 获 取 网 页 ， 并 把 它 写 
入 HDFS。 


10.3.1 把 文件 导入 Hadoop 
上 例 介 绍 了 最 简单 的 把 文件 数据 导入 Hadoop 的 方法 ， 以 及 标准 命令 行 工 


具 或 编程 API 的 使 用 方法 。 本 节 没 什么 要 特别 讨论 的 内 容 ， 因 为 本 书 从 
始 至 终 都 在 处 理 这 种 问题 。 


10.3.2 ”潜在 的 问题 


尽管 上 述 方法 并 无 不 妥 ， 能 够 正常 工作 ， 但 它们 也 存在 一 些 问 题 ， 导 致 
它们 不 适用 于 产品 。 


1. 把 网 络 数据 保留 在 网 络 上 


先 把 网 络 数 据 拷贝 到 本 地 文件 ， 然 后 把 本 地 文件 放 到 HDFS 上 的 方法 会 
影响 系统 的 性 能 。 由 于 要 访问 两 次 硬盘， 而 便 盘 恰恰 是 系统 中 效率 最 低 
的 部 件 ， 这 就 市 来 了 额外 的 时 延 。 如 果 一 次 调用 可 以 获取 大 量 数 据 ， 延 
时 可 能 不 是 个 大 问题 ， 但 此 时 硬盘 空间 就 成 为 需要 考虑 的 问题 。 但 对 于 
多 次 少量 数据 的 调用 ， 延 时 就 是 个 不 得 不 考虑 的 问题 。 


2. 对 Hadoop 的 依赖 


对 基于 文件 的 方案 而 言 ， 上 述 模型 的 一 个 隐 含 条 件 是 ， 在 我 们 访问 文件 
的 时 候 必 须 首 先 获 知 集群 位 置 并 获得 Hadoop 的 访问 权限 。 这 就 潜在 地 增 
加 了 系统 依赖 性 一 一 我 们 不 得 不 把 Hadoop 集 群 的 位 置 告诉 负责 下 载 网 页 
文件 的 主机 ， 它 本 来 是 不 需要 知道 任何 关于 Hadoop 集 群 信 息 的 。 有 一 个 
办 法 可 以 部 分 解决 这 个 问题 ， 那 就 是 使 用 SFTP 这 样 的 工具 把 获取 到 的 
文件 保存 在 Hadoop-aware 主 机 上 ， 然 后 再 把 它 复制 到 HDFS 。 




















3. 可 靠 性 

读者 可 能 会 注意 到 ， 上 述 方法 完全 没有 提 到 错误 处 理 机 制 。 我 们 使 用 的 
这 些 工 具 都 没有 实现 内 在 的 出 错 重 试 机 制 ， 这 就 意味 着 ， 我 们 需要 在 每 
次 获取 数据 时 都 设计 一 种 错误 检查 和 重 试 机 制 。 


4. 多 此 一 举 














这 些 特殊 方法 的 最 大 问题 在 于 ， 目 前 存在 大 量 的 实现 类 似 任务 的 命令 行 
工具 和 脚本 。 重 复 实现 这 些 工 具 ， 以 及 复杂 的 错误 跟踪 所 付出 的 的 代价 
会 随 着 时 间 日 益 凸 显 。 





5. 一 种 通用 的 框架 


做 过 企业 计算 化 的 人 都 知道 ， 最 好 用 通用 集成 框架 来 解决 这 个 问题 。 这 
种 思路 是 非常 正确 的 ， 并 且 现 在 确实 存在 一 球 业 界 熟 知 的 产品 ， 它 就 
是 EAI (Enterprise Application Integration， 企 业 应 用 集成 ) 。 


我 们 需要 的 就 是 一 种 有 Hadoop 知 识 并 易于 与 Hadoop 及 相关 项 目 整合 的 
框架 ， 无 需 用 户 投 入 大 量 精力 编写 定制 的 转换 程序 。 用 户 可 以 自行 实现 
这 种 框架 ， 但 接 下 来 ， 我 们 将 介绍 Apache Flume ， 它 提供 了 我 们 想 要 
的 大 部 分 功能 。 





10.4 Apache Flume 简 介 





Flume 是 男 一 球 与 Hadoop 紧 密集 成 的 Apache 项 目 ， 其 网 址 
为 http://flume.apache.org 。 本 章 剩 余部 分 将 主要 学 习 该 项 目 。 


在 介绍 Flume 功 能 之 前 ， 我 们 先 要 清楚 它 无 法 实现 哪些 功能 。Flume 倍 摘 
述 为 分 布 式 的 日 志 收 集 系 统 ， 也 就 是 说 ， 它 处 理 的 是 基于 文本 行 的 文本 
数据 。 它 并 不 是 一 个 通用 的 分 布 式 数据 平台 ， 特 别 是 ， 别 指望 用 它 获 取 
或 传输 二 进 制 数据 。 


但 是 ， 由 于 Hadoop 处 理 的 绝 大 部 分 数据 都 与 上 述 描述 相符 ， 很 可 能 
Flume 可 以 满足 读者 的 大 部 分 数据 获取 需求 。 


提示 : Flume 也 不 是 一 个 通用 的 数据 序列 化 框架 ， 例 如 第 5 章 曾 用 到 
的 Avro 、Thrift 和 Protocol Buffers 。 我 们 将 会 看 到 ，Flume 设 定 了 
除 这 些 格式 之 外 ， 它 无 法 实现 其 他 的 数据 序列 化 任 


Flume 可 以 从 多 个 数据 源 获取 数据 ， 把 这 些 数据 传 给 远程 主机 (可 能 是 
一 对 多 或 流水 线 模型 中 的 多 个 目标 ) ， 再 把 它们 传 给 多 个 目的 端 。 尽 管 
Flume 提 供 了 开发 目 定 义 数 据 源 和 数据 目的 端的 编程 API， 但 它 原 本 束 文 
持 许 多 常见 的 场景 。 下 和 面 ， 我 们 通过 安装 使 用 Flume 来 学 习 其 功能 。 


关于 版 本 的 说 明 


近期 ，Flume 项 目 发 生 了 几 个 主要 的 变动 。 原 来 的 Flume〔( 现 在 更 名 
为 Flume OG ， 意 为 原始 版 本 ) 被 Flume NG (Next Generation) 所 取 
代 。 尽 绾 两 个 版 本 的 基本 原则 和 功能 非 各 相似， 但 在 实现 上 却 存 在 较 大 


差异 。 
因为 Flume NG 的 使 用 会 越 来 越 广泛 ， 本 书 将 重点 介绍 它 的 相关 知识 。 


在 一 段 时 间 内 ，Flume NG 在 某 些 方面 不 如 Flume OG 成 熟 ， 因 此 ， 如 果 
Flume NG 无 法 满足 读者 的 某 些 需求 ， 可 以 试 试 Flume OG。 











10.5 ”实践 环节 : 安装 并 配置 Flume 
本 节 介 绍 Flume 的 下 载 、 安 装 和 配置 。 


1. 从 http://flume.apache.org/ 下 载 最 新 版 的 Flume NG 二 进 制 文 件 ， 把 它 
保存 到 本 地 文件 系统 。 


2. 把 文件 复制 到 目标 位 置 并 解压 。 


$ mv apache-flume-1.2.0-bin.tar.gz /opt 
$ tar -xzf /opt/apache-flume-1.2.0-bin.tar.gz 





3. 创建 符 志 链接 ， 指 网 Flume 安 闭路 径 。 


$ ln -s /opt/apache-flume-1.2.6 /opt/flume 





4. 定义 环境 变量 FLUME_HOME 。 


Export FLUME HOME=/opt/flume 





5. 把 Flume 安 装 路 径 下 的 bin 子 目 录 添 加 到 用 户 路 径 中 。 


Export PATH=${FLUME HOME}/bin:${PATH} 





6. 验证 已 设置 了 JAVA_HOME 变量 。 


Echo ${JAVA HOME} 


EE | 
7. 验证 已 把 Hadoop 函 数 库 路 径 加 入 到 CLASSPATH 变 量 中 。 


$ echo ${CLASSPATH} 





8. 在 Hadoop 目 录 下 创建 Flume 的 conf 路 径 。 


$ mkdir /home/hadoop/flume/conf 





9. 把 所 需 的 文件 拷贝 到 刚 创建 的 conf 目录 中 。 


$ cp /opt/flume/conf/log4j.properties /home/hadoop/flume/conf 
$ cp /opt/flume/conf/flume-env.sh.sample /home/hadoop/flume/conf/ 
flume-env.sh 





10. 编辑 flume-env.sh 并 设置 JAVA_HOME 。 
原理 分 由 


Flume 的 安 效 过 程 较为 简单 ， 与 我 们 以 前 安装 过 的 其 他 几 个 工具 类 似 。 


首先 ， 获 取 Flume NG 的 最 新 版 本 〈1.2.x 及 之 后 的 版 本 都 行 ) 并 保存 到 
然后 把 它 复 制 到 目标 位 置 ， 解 压缩 并 为 了 方便 创建 一 个 
符号 链接 。 


我 们 需要 定义 FLUME_HOME 环境 变量 ， 并 把 安装 目录 下 的 bin 文件 夹 添 
| 和 以 前 一 样 ， 这 些 设 置 都 可 以 直接 在 命令 行 或 脚本 文件 
实现 。 


Flume 要 求 本 机 已 设置 JAVA_HOME 环境 变量 ， 本 例 中 我 们 通过 echo 命 令 
来 确认 。PFlume 还 要 用 到 Hadoop 函 数 库 ， 因 此 需要 检查 CLASSPATH 环 





境 变量 的 值 ， 确 认 其 中 已 包 含 了 Hadoop 函 数 库 的 目录 。 


对 于 演示 来 讲 ， 最 后 几 个 步骤 并 非 必需 的 ， 但 在 产品 集群 中 却 会 用 到 它 
们 。Flume 会 搜索 配置 路 径 ， 其 中 包含 定义 了 默认 日 志 属 性 和 环境 变量 
的 文件 。 我 们 发 现 ， 在 正确 设置 配置 路 径 的 情况 下 ，Flume 会 运行 得 更 
好 ， 所 以 我 们 先 创建 了 该 目录 ， 以 后 就 无 需 改动 了 。 


我 们 假设 /home/hadoop/flume 束 是 Flume 的 工作 路 径 ，Flume 配 置 文 
0 。 读 者 可 根据 自己 系统 的 实际 情况 改变 
该 路 径 。 


使 用 Flume 采 集 网 络 数据 
上 一 节 我 们 已 安装 了 Flume， 本 节 将 用 它 采 集 一 些 网 络 数据 。 


10.6 ”实践 环节 : 把 网 络 流量 存 入 日 志文 件 


在 第 一 个 例子 中 ， 我 们 将 使 用 简单 的 Flume 配 置 ， 把 采集 到 的 网 络 数据 
存 入 主要 的 Flume 日 志文 件 。 


1. 把 下 列 内 容 存 入 agent1.conf 文件 ， 并 保存 到 Flume 的 工作 目录 
Ts 


.Sources = netsource 
.Sinks = logsink 
.Channels = memorychannel 


.Sources.netsource.type netcat 
.Sources.netsource.bind localhost 
.Sources.netsource.port 36060 


.Sinks.logsink.type = logger 


.Channels.memorychannel.type = memory 
.Cchannels.memorychannel.capacity = 1666 
.channels .memorychannel.transactionCapacity = 166 


.Sources.netsource.channels = memorychannel 
.Sinks.logsink.channel = memorychannel 





2. 启动 一 个 Flume 代 理 。 


$ flume-ng agent --conf conf --conf-file 16a.conf --name agent1 





该 命令 的 执行 结果 如 下 图 所 示 。 


TOUR 


Be Ed Xen Jrmnal bop 


lsb/aspect}tools. ,6.5 


Vib/comons. beanuti ls. 1 





3. 在 另 一 个 窗口 中 ， 远 程 连接 至 本 地 主机 的 3000 端 口 ， 然 后 输入 一 些 
文本 。 


$ curl telnet://1Localhost:3666 


Hello 
OK 
Flume! 
OK 





4. 使 用 Ctrl + C 关 闭 curl 连 接 。 
5. 查看 Flume 日 志文 件 。 


$ tail flume.1log 





该 命令 的 执行 结果 如 下 所 示 。 


2012-68-19 06:37:32,762 INFO sink.LoggerSink: Event: { headers:{} 
body: 68 65 6C 6C 6F Hello } 

2012-68-19 06:37:32,762 INFO sink.LoggerSink: Event: { headers:{} 
body: 6D 65 Flume } 





原理 分 析 


首先 ， 我 们 在 Flume 工 作 目 录 下 创建 了 一 个 配置 文件 。 稍 后 会 详细 解释 
Flume 的 配置 文件 ， 但 现在 ， 假 设 Flume 从 一 个 称 为 信 源 〈source) 的 部 
件 接收 数据 ， 并 把 它 写 入 称 为 信 宿 〈sink) 的 目的 地 。 


本 例 中 ， 我 们 创建 了 一 个 Netcat 信 源 ， 它 监听 菏 个 端口 上 的 网 络 连接 。 
本 例 中 ， 假 设 其 监听 的 是 本 地 主机 的 3000 端 口 。 

我 们 设置 的 信 窒 为 logger 类 型 ， 它 会 把 输出 写 入 一 个 日 志文 件 。 配 置 
0 的 代理 ， 它 会 用 到 上 述 信 源 和 
言 答 。 


接着 ， 我 们 使 用 flume-ng 可 执行 文件 启动 一 个 Flume 人 代理。 我 们 将 使 用 
该 工具 启动 所 有 Flume 进 程 。 请 注意 ， 该 命令 有 下 列 几 个 选项 : 


e。 agent 参数 指定 Flume 局 动 一 个 代理 ， 它 泛 指正 在 运行 的 涉及 数据 
传输 的 Flume 进 程 ; 


。 conf 路 径 ， 之 前 已 提 到 过 其 含义 ; 
。 针对 待 启动 进程 的 特殊 配置 文件 ; 
。 配置 文件 里 设置 的 代理 名 称 。 


代理 局 动 之 后 不 久 殊 会 在 屏幕 上 输出 其 运行 结果 。〔 很 明显 ， 我 们 可 以 
根据 产品 集群 的 需要 进行 配置 ， 并 在 后 台 运 行 该 程序 ) 。 


在 为 一 个 窗口 中 ， 我 们 使 用 curl 软 件 远程 连接 至 本 地 主机 的 3000 端 口 。 








打开 这 种 远程 连接 会 话 的 传统 方式 是 使 用 telnet 程序 ， 但 许多 Linux 系 
统 中 都 默认 安装 了 curl ， 基 本 上 没 人 会 再 用 telnet 程序 。 


我 们 每 行 输 入 一 个 词 ， 并 按 下 回 车 键 ， 然 后 使 用 “Ctrl + C?” 命 令 关 闭 远程 
会 话 。 最 后 ， 我 们 查看 位 于 Flume 工 作 目录 下 的 flume.1log 文件 内 容 ， 
从 中 发 现 了 我 们 输入 的 所 有 单词 。 


10.7 实践 环 市 : 把 日 志 输 出 到 控制 台 


在 茶 些 情况 下 ， 人 会 看 日 志文 件 的 内 容 并 不 是 很 方便 ， 尤 其 古 在 已 经 打开 
代理 窗口 的 时 候 。 接 下 来 ， 我 们 修改 设置 ， 将 日 志 同 时 输出 到 代理 窗 
站。 





1. 启动 Flume 代 理 的 时 候 新 加 一 个 参数 。 


$ flume-ng agent --conf conf --conf-file 16a.conf --name agent1 
-Dflume.root.1logger=INFO, console 





该 命令 的 执行 结果 如 下 所 示 。 


Info: Sourcing environment configuration script /home/hadoop/ 
flume/conf/flume-env.sh 


org.apache.flume.node.Application --conf-file 16a.conf --name 
agent1 


2012-608-19 66:41:45,462 (main) [INFO - org.apache.flume.1ifecycle. 
LifecycleSupervisor.start(LifecycleSupervisor.java:67)] Starting 
lifecycle supervisor 1 





2. 在 另 一 个 窗口 中 ， 通 过 curl 程序 连接 服务 器 。 


$ _ curl telnet://localhost:36060 





~ 


分 两 行 输入 Hello 和 Flume ， 按 下 “Ctrl + C” 组 合 键 ， 然 后 查看 代理 
| 


O 


区 | 





原理 分 析 





本 例 讲 到 的 用 法 在 调试 或 创建 新 数据 法 时 非常 有 用 。 


从 上 例 可 以 看 出 ， 默 认 情 况 下 ，Flume 会 把 其 日 志 写 入 保存 在 文件 系统 
的 文件 内 。 更 确切 地 说 ， 该 动作 是 由 conf 路 径 下 的 log4j 属 性 文件 指定 
的 。 在 某 些 情况 下 ， 我 们 想 立 即 获得 有 反馈， 而 无 需 经 党 查看 日 志文 件 或 
改动 属性 文件 。 


在 命令 行 中 明确 设置 flume .root.1logger 变量 ， 就 可 以 重 写 日 志 模 块 
的 默认 配置 ， 使 Flume 把 输出 直接 发 送 给 代理 窗口 。 日 志 模 块 是 标准 的 
log4j， 因 此 它 支 持 常用 的 日 志 等 级 ， 例 如 DEBUG 和 INFO 。 


把 网 络 数据 写 入 日 志文 件 
在 默认 情况 下 ，Flume 信 牡 会 把 收 到 的 数据 写 入 日 志文 件 ， 这 种 方式 有 


一 些 缺 点 ， 尤 其 是 当 我 们 想 在 其 他 程序 中 使 用 这 些 数 据 的 时 候 。 通 过 设 
四 为 一 种 信 答 ， 我 们 可 以 把 数据 写 入 易 用 性 更 强 的 数据 文件 。 


10.8 实践 环节 : 把 命令 的 执行 结 末 写 入 平面 文件 
本 节 将 介绍 一 种 新 的 信 源 类 型 并 在 实践 中 使 用 它 。 


1. 在 Flume 的 工作 目录 下 新 建 agent2.conf 文件 ， 并 把 下 列 内 容 保存 
到 该 文件 中 。 


.Sinks = filesink 
.Channels = filechannel 


.Sources.execsource.type = exec 
.Sources.execsource.command = cat /home/hadoop/message 


.Sinks.filesink.type = FILE ROLL 
.Sinks.filesink.sink.directory = /home/hadoop/flume/files 
.Sinks.filesink.sink.rollInterval = 6 


.Channels.filechannel.type = file 
.Channels .filechannel.checkpointDir = /home/hadoop/flume/fc/chec 
.Channels.filechannel.dataDirs = /home/hadoop/flume/fc/data 


.Sources.execsource.channels = filechannel 
.Sinks.filesink.channel = filechannel 





2. 在 根 目录 下 创建 一 个 简单 的 测试 文件 。 


$ echo "Hello again Flume!" > /home/hadoop/message 





3. 启动 代理 。 


$ flume-ng agent --conf conf --conf-file agent2.conf --name agent2 


| 


4. 在 为 一 个 窗口 中 ， 检 查 信和 窒 文 件 的 输出 路 径 。 


$ 1s files 
$ cat files/* 





上 述 命令 的 结果 如 下 所 示 。 


[ hadoop Swmle TUTE 
Fle Edit View Terminsl Help 
hadoop@vm16:~/flumes$ more /home/hadoop/message 
Hello again Flume! 

hadoop@vm16:~/flume$ ls files 

13S7479289745-1 

hadoop@vm16:~/flumes$ more files/1357479289746-1 
HeLLo again Flume! 

hadoopGvm16:-~/fLumes 趾 | | 








原理 分 析 


本 例 与 前 儿 个 例子 的 工作 流程 类 似 。 我 们 先 为 Flume 代 理 创建 一 个 配置 
文件 ， 接 着 运行 该 代理 ， 之 后 确认 它 抓 到 了 我 们 想 要 的 数据 。 


这 次 我 们 用 的 是 exec 信 源 和 file_roll 信箱 。 顾 名 思 义 ，exec 信 源 在 主 
机 上 执行 一 个 命令 并 将 捕获 的 输出 作为 Flume 代 理 的 输入 。 虽 然 在 上 例 
中 ， 只 执行 了 一 次 命令 ， 但 这 只 是 为 了 演示 其 原理 。 更 为 常见 的 情况 





是 ， 代 码 中 用 到 多 条 命令 以 生成 持续 的 数据 流 。 需 要 注意 的 是 ， 读 者 可 
以 对 exec 信 宿 进 行 配置 ， 使 其 在 命令 终止 的 时 候 重启 命令 。 

Flume 代 理 的 输出 被 写 入 配置 文件 的 输出 文件 中 。 默 认 情 况 下 ，Flume 每 
隔 30 秒 钟 将 输出 滚动 写 入 到 一 个 新 文件 中 。 为 了 便于 在 单个 文件 中 跟踪 
Flume 的 输出 ， 我 们 关闭 了 上 述 功 能 。 


我 们 发 现 ， 输 出 文件 中 确实 包含 指定 的 exec 命令 的 输出 内 容 。 











日 志 信 和 窒 与 文件 信和 牢 





读者 可 能 会 对 Flume 中 同时 存在 日 志 信 箱 和 文件 信箱 感到 困惑 。 从 概念 
来 讲 ， 它 们 完成 的 任务 完全 相同 ， 那 么 区 别 在 什么 地 方 呢 ? 


实际 上 ，logger 信 牡 比 其 他 信 牡 更 适合 用 作 调 试 工具 。 它 不 仅仅 记录 

Flume 捕 获 的 信 源 信息 ， 同 时 加 入 了 许多 元 数据 和 事件 。 然 而 ， 文 件 信 
答 准 确 地 记录 输入 数据 ， 因 为 这 些 数 据 在 传 给 Flume 时 没有 发 生 任 何 变 
化 《如 果 需 要 修改 数据 ， 这 也 是 可 以 实现 的 ， 稍 后 会 看 到 这 种 情况 ) 。 


在 大 多 数 情 况 下 ， 读 者 想 用 文件 信 社 捕获 输入 数据 ， 但 在 开发 过 程 中 也 
可 能 会 根据 需要 用 到 日 志 信箱 。 


2 实践 环节 : 把 远程 文件 数据 写 入 本 地 平面 文 


本 节 将 展示 另 一 个 把 数据 写 入 文件 信 宿 的 例子 。 这 次 ， 我 们 会 用 到 
Flume 的 另 一 个 功能 一 一 从 远程 客户 端 接 收 数据 。 














1. 把 下 列 内 容 保 存 到 Flume 工 作 目 录 下 的 agent3.conf 文件 中 。 


.Sources = avrosource 
.Sinks = filesink 
.Channels = jdbcchannel 


.Sources.avrosource.type avro 
.Sources.avrosource.bind localhost 
.Sources.avrosource.port 406060 
.Sources.avrosource.threads = 5 


.Sinks.filesink.type = FILE ROLL 
.Sinks.filesink.sink.directory = /home/hadoop/flume/files 
.Sinks.filesink.sink.rollInterval = 6 


.channels.jdbcchannel.type = jdbc 


.Sources.avrosource.channels = jdbcchannel 
.Sinks.filesink.channel = jdbcchannel 





2. 创建 新 测试 文件 /home/hadoop/message2 。 


Hello from Avrol 





3. 启动 Flume 代 理 。 


$ flume-ng agent -conf conf -conf-file agent3.conf -name agent3 





4. 在 另 一 个 窗口 中 ， 使 用 Flume Avro 客户 端 向 agent3 发 送 文件 。 


$ flume-ng avro-client -H localhost -p 4666 -F /home/hadoop/message 





5. 和 以 前 一 样 ， 检 查 输出 路 径 中 的 文件 内 容 。 


$ cat files/* 





原理 分 析 


和 以 前 一 样 ， 我 们 新 建 一 个 配置 文件 。 这 次 ， 我 们 使 用 的 是 Avro 信 源 。 
回忆 一 下 ， 第 5 章 曾 讲 到 ，Avro 是 一 个 数据 序列 化 框架 ， 也 就 是 说 ， 它 
负责 对 数据 进行 封包 ， 并 把 数据 从 网 络 中 的 一 个 地 方 传 到 另 一 个 地 方 。 
与 Netcat 信 源 类 似 ，Avro 信 源 对 网 络 参 数 进行 配置 。 本 例 中 ， 它 会 监听 


本 地 主机 的 4000 端 口 。 我 们 配置 代理 使 用 文件 信箱 ， 之 后 局 动 该 代理 。 


Flume 既 会 用 到 Avro 信 源 ， 也 会 用 到 独立 的 Avro 客户 端 。 后 者 可 用 于 读 
取 文 件 内 容 并 把 它 发 给 网 络 上 任何 位 置 的 Avro 信 源 。 在 本 例 中 ， 我 们 使 
用 本 地 主机 作为 Avro 信 源 ， 但 要 注意 的 是 ，Avro 客 户 端 需要 准确 知道 
Avro 信 源 的 主机 名 和 端口 号 。 因 此 ， 这 并 不 是 一 个 限制 因素 ，Avro 客 户 
端 可 以 把 文件 发 给 网 络 上 任何 位 置 的 处 于 监听 状态 的 Flume Avro 信 源 。 


Avro 客户 端 读 取 文 件 内 容 ， 把 它 发 给 Flume 人 代理， 而 代理 会 把 这 些 数据 
写 入 文件 信箱 。 通 过 检 碍 输出 文件 的 内 容 ， 我 们 确认 Flume 运 作 正 党。 








10.9.1 信 源 、 信 宿 和 信道 

我 们 故意 在 前 几 个 例子 中 使 用 了 多 种 信 源 、 信 和 究 和 信道 ， 目 的 仪 是 为 了 
说 明 组 合 使 用 这 些 部 件 。 但 是 ， 我 们 没有 详细 研究 它们 ， 尤 其 是 信道 。 
现在 ， 我 们 将 深入 研究 这 些 内 容 。 


1. 信 源 





我 们 已 经 学 习 了 三 种 信 源 : Netcat，exec〔 可 执行 文件 ) 以 及 Avro。 
Flume NG 还 支持 使 用 一 种 序列 生成 器 作为 信 源 (主要 用 于 测试 ) ， 以 
及 读 取 syslogd 数据 的 信 源 〈 既 支持 TCP 也 支持 UDP〉。 我 们 在 代理 中 配 
置信 源 ， 信 源 在 接收 到 足够 数据 可 以 生成 一 个 Flume 事 件 时 ， 它 会 把 新 
创建 的 事件 发 给 信道 。 尽 管 信 源 的 逻辑 可 能 与 它 读 取 数 据 、 转 化 事件 以 
及 处 理 故 障 的 方式 有 关 ， 但 它 却 对 事件 的 存储 方式 一 无 所 知 。 信 源 负责 
把 事件 传 给 用 户 设置 的 信道 ， 但 如 何 处 理事 件 却 是 对 信 源 不 可 见 的 。 














2. 信和 窒 


除 之 前 用 到 的 logger 和 file_roll 信 笨 之 外 ，Flume 还 文 持 HDFS、 

HBase (两 种 类 型 ) 、Avro“〈 用 于 代理 链 ) 、null (用 于 测试 ) 和 

IRC〔 用 于 互联 网 中 继 聊 天 服务 ) 这 几 种 信 答 。 从 概念 上 来 讲 ， 信 和 窒 与 
信 源 的 概念 正好 相反 。 


信箱 等 着 从 信道 接收 事件 ， 但 它 对 信道 的 内 部 工作 原理 一 无 所 知 。 在 接 
收 到 数据 后 ， 信 条 会 把 事件 分 友 给 各 自 的 目标 主机 ， 并 负责 处 理 超 时 、 
重 试 以 及 循环 之 类 的 问题 。 











3. 信道 




















那么 ， 这 些 连 接着 信 源 和 信和 宿 的 神奇 信道 完 竟 是 什么 呢 ? 就 像 名 字 和 前 
和 
儿 制 。 


当 我 们 定义 信 源 和 信道 时 ， 它 们 在 如 何 读 取 和 写 入 数据 方面 有 较 大 差 

异 。 例 如 ，exec 信 源 接 收 数据 的 速率 远 快 于 file_roll 信 宿 的 写 入 速度 ， 或 
者 信 源 有 时 需要 暂停 数据 写 入 例如 在 切换 到 新 文件 的 时 候 ， 或 处 理 系 
统 IO 阻塞 的 时 候 ) 。 因 此 ， 信 道 需要 在 信 源 和 信道 之 间 缓 存 数据 ， 这 

样 才能 使 数据 最 有 效 地 流 过 代理 。 这 也 是 配置 文件 的 信道 配置 部 分 包括 
容量 之 类 的 配置 元 素 的 原因 。 


memory 信 道 是 最 容易 理解 的 一 种 信道 类 型 ， 因 为 代理 从 信 源 把 事件 读 
入 内 存 ， 然 后 传 给 信箱 。 但 如 果 代 理 进 程 在 该 过 程 中 途 由 于 软件 或 硬件 
故障 而 骨 尝 ， 那 么 此 时 memory 信 道中 的 所 有 数据 都 会 永久 丢失 。 


我 们 用 过 的 fle 和 JDBC 信道 会 永久 存储 事件 ， 以 防 这 种 意外 的 数据 于 
失 。 在 从 信 源 读 取 事件 之 后 ，file 信 道 将 事件 内 容 写 入 文件 系统 上 的 文 
件 ， 只 有 代理 成 功 将 事件 传 给 信箱 后 ， 该 文件 才 会 被 删除 。 类 似 地 ， 
JDBC 信 道 使 用 一 个 内 散 的 Derby 数 据 库 以 可 恢复 的 形式 存储 事件 。 


这 是 一 种 典型 的 性 能 和 可 靠 性 之 间 的 权衡 问题 。memory 信 道 效 紊 最 
高 ， 但 有 数据 丢失 的 风险 。 包 e 和 JDBC 信 道 的 效率 相对 较 低 ， 但 能 保证 
| 









































提示 : ， 别 在 这 个 问题 上 太 费 心思 。 在 实际 使 用 中 ， 答 案 通常 是 很 明 
显 的 。 同 时 也 要 仔细 考虑 用 到 的 信 源 和 信 答 的 可 靠 性 。 如 果 它 们 都 靠 
不 住 ， 会 丢失 一 些 事件 ， 那 还 有 必要 使 用 永久 信道 吗 ? 





4. 定制 信 源 、 信 道 和 信 宿 





读者 可 能 会 认为 现 有 的 信 源 、 信 道 和 信和 宿 太 少 了 ， 千 万 别 这 么 想 。 
Flume 提 供 了 一 个 自 定 义 信 源 、 信 道 、 信 和 窒 的 接口 。 男 外 ，Flume OG 的 
一 部 分 组 件 还 没有 迁移 到 Flume NG 中 ， 但 它们 人 述 早 会 出 现在 Flume NG 
中 的 。 





10.9.2 Flume 配置 文件 


上 一 节 ， 我 们 已 经 讨论 了 信 源 、 信 窒 和 信道 。 接 下 来 ， 我 们 将 详细 研究 
一 个 以 前 用 过 的 配置 文件 。 


agent1.sources = netsource 
agent1.sinks = logsink 
agent1.channels = memorychannel 





上 述 这 些 行 指 定 了 代理 的 名 称 ， 并 定义 了 与 之 相关 的 信 源 、 信 簿 和 信 
道 。 每 一 行 都 可 以 有 多 个 值 ， 这 些 值 以 空格 为 分 隅 符 。 
agent1.sources.netsource .type netcat 


agent1.sources.netsource.bind localhost 
agent1.sources.netsource.port 36060 











上 述 行 设置 了 信 源 的 各 个 属性 。 因 为 我 们 使 用 了 Netcat 信 源 ， 配 置 项 的 
值 指定 了 绑 定 网 络 的 方式 。 不 同类 型 的 信 源 有 其 自身 独 有 的 配置 变量 。 


agent1.sinks.logsink.type = logger 











这 行 指定 了 我 们 要 用 的 logger 信 宿 ， 其 具体 设置 将 通过 命令 行 或 log4j 属 
性 文件 实现 。 


agent1.channels.memorychannel.type = memory 

agent1.channels .memorychannel.capacity = 1666 

agent1.channels .memorychanne1l.transactionCapacity = 166 

These lines specify the channel to be used and then add the type 
Specific configuration values. In this case we are using the memory 
channel and we specify its capacity but - since it is non-persistent - 
no external storage mechanism. 

agent1.sources.netsource.channels = memorychannel 
agent1.sinks.logsink.channel = memorychannel 





ee 


最 后 几 行 设置 了 信 源 和 信和 窒 要 用 到 的 信道 。 尺 管 不 同 的 代理 要 使 用 不 同 
的 配置 文件 ， 但 为 了 简便 也 可 以 在 一 个 配置 文件 中 完成 多 个 代理 的 设 
置 ， 因 为 各 个 代理 之 间 会 实现 必要 的 分 隔 。 但 是 ， 这 会 使 配置 文件 显得 
非常 繁 天 ， 可 能 会 吓 坏 Flume 的 初学 者 。 录 个 代理 也 可 以 包含 多 个 流 ， 
例如 ， 我 们 可 以 把 前 两 个 例子 合并 到 同一 个 配置 文件 和 代理 。 


= 展 堵 十 


动手 实现 它 吧 ! 把 agent1 和 agent2 合并 为 一 个 代理 ， 并 创建 一 个 配置 
文件 完成 下 列 设 置 。 


。 使 用 Netcat 信 源 和 logger 信 宿 。 
。 使 用 exec 信 源 和 file 信 宿 。 


。 分 别 为 上 述 信 源 信 宿 对 实现 一 个 memory 信 道 。 





为 了 帮助 读者 顺利 起 步 ， 作 者 给 出 一 些 定 义 作 为 示例 。 


agentx.sources = netsource execsource 
agentx.sinks = logsink filesink 


agentx.channels = memorychannel1 memorychannel2 





10.9.3 一 切 都 以 事件 为 核心 

在 学 习 新 例子 之 前 ， 我 们 再 讨论 一 个 概念 。 究 竟 什 么 是 事件 呢 ? 

回忆 一 下 ，EFlume 显 然 以 日 志文 件 为 基础 ， 那 么 在 大 多 数 情 况 下 ， 事 件 
人 我 们 曾 在 信 源 和 信和 窒 中 看 到 过 这 样 的 数 
师 。 


但 是 ， 事 件 并 非 全 部 是 文本 数据 。 例 如 ，UDP syslogd 信 源 把 接收 到 的 
每 个 数据 包 当 做 一 个 事件 ， 并 在 系统 中 传输 。 在 使 用 这 种 类 型 的 信 源 和 








信 特 时， 对 事件 的 定义 保持 不 变 ， 而 当 读 取 文 件 时 ， 我 们 不 得 不 使 用 基 
于 文本 行 的 事件 概念 。 


10.10 ”实践 环节 :， 把 网 络 数据 写 入 HDFS 


在 专门 研究 Hadoop 的 书 中 讨论 Flume， 但 至 今 为 止 却 尚未 介绍 如 何在 
Hadoop 中 使 用 Flume， 多 少 有 点 不 太 合适 。 接 下 来 ， 我 们 将 要 介绍 如 何 
把 数据 写 入 HDFS。 


1. 在 Flume 工 作 目 录 下 新 建 agent4.conf 文件 ， 并 把 以 下 内 容 保 存 到 
该 文件 中 。 


sources = netsource 
sinks = hdfssink 
channels = memorychannel 


sources.netsource.type netcat 
sources.netsource.bind localhost 
sources.netsource.port 3660 


sinks.hdfssink.type = hdfs 
sinks.hdfssink.hdfs.path = /flume 
sinks.hdfssink.hdfs.filePrefix = log 
sinks.hdfssink.hdfs.rollInterval = 6 
sinks.hdfssink.hdfs.rollCount = 3 
sinks.hdfssink.hdfs.fileType = DataStream 


channels .memorychannel.type = memory 
channels.memorychannel.capacity = 1666 
channels.memorychanne1l.transactionCapacity = 166 


sources.netsource.channels = memorychannel 
sinks.hdfssink.channel = memorychannel 





2. 启动 代理 。 





$ flume-ng agent -conf conf -conf-file agent4.conf -name agent4 


| | 
3. 在 男 一 个 窗口 中 ， 开 启 一 个 远程 连接 并 向 Flume 发 送 7 个 事件 。 


$ curl telnet://localhost:3660 





4. 查看 输出 目录 中 的 文件 ， 并 检查 文件 内 容 。 


$ hadoop fs -1s /flume 


$ hadoop fs -cat "/flume/*" 





上 述 命令 的 执行 结果 如 下 图 所 示 。 


原理 分 析 
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hadoop@vm16:~$ curl telnet://localhost:3000 


hadoop@vml6:~$ hadoop fs -ls /flumo 
Found 3 items 

“rw-r 1 hadoop supergroup 
-rw-r--r-- 1 hadoop supergroup 
=-TPW-F--F-- 1 hadoop superaroup 


hadoop@vml6:~$ hadoop fs -cat "/flun/*™ 


wal 
adoop@Yym16: -$ 





hadoop Svmle 


5 14:37 /flume/log- .1357483063181 
-01-06 14:37 /fLune/Log- .1357483063182 
1-06 14:37 /tlume/log- .1357483063193.t 


这 次 ， 我 们 使 用 的 是 Netcat 信 源 和 HDFS 信 道 。 从 配置 文件 中 可 以 看 出 ， 
我 们 需要 设置 文件 位 置 、 文 件 前 级 以 及 从 某 个 文件 切换 到 为 一 个 文件 的 
打上 略 等 内 容 。 本 例 中 ， 我 们 指明 文件 位 于 /flume 目录 下 ， 每 个 文件 都 
以 log- 为 前 级 ， 并 且 每 个 文件 最 多 只 能 存储 3 条 数据 (很 明显 ， 这 么 少 
的 数据 只 能 用 于 测试 ) 。 


在 启动 代理 后 ， 我 们 再 次 使 用 curl 向 Flume 发 送 7 个 事件 ， 每 个 事件 仅 包 
含 1 个 单词 。 接 着 ， 我 们 使 用 Hadoop 命 令 行 工 具 查 看 /flume 目 录 并 验证 
输入 数据 被 写 入 HDFS。 


请 注意 ， 第 三 个 HDFS 文 件 扩展 名 为 .tmp 。 回 忆 一 下 ， 我 们 设置 的 是 每 
个 文件 包含 3 条 记录 ， 但 仅 输入 7 个 值 。 因 此 ， 有 2 个 文件 已 达到 其 数据 
容量 ， 而 第 3 个 文件 则 刚刚 开始 。Flume 用 .tmp 后 级 标记 正在 写 入 的 文 
件 ， 这 就 一 眼 能 区 分 出 完整 文件 和 正在 写 入 的 文件 ， 而 MapReduce 作 业 
只 处 理 完 整 文件 。 


























10.11 实践 环节 : 加 入 时 间 截 


前 面 我 们 曾 提 到 Flume 提 供 了 一 些 机 制 ， 用 于 写 入 稍微 复杂 的 文件 数 
据 。 本 节 ， 我 们 将 展示 一 些 很 普通 的 做 法 一 一 把 动态 生成 的 时 间 戳 和 数 
所 一 同 写 入 文件 。 


1. 把 下 列 配 置 内 容 保存 为 agent5.conf 文件 。 


agent5 .sources = netsource 
agent5.sinks = hdfssink 
agent5 .channels = memorychannel 








agent5 .sources.netsource .type netcat 
agent5 .sources.netsource.bind localhost 
agent5.sources.netsource.port 3066 
agent5.sources.netsource.interceptors = ts 


agent5.sources.netsource.interceptors.ts.type = org.apache.flume . 
interceptor.TimestampInterceptor$Builder 


agent5.sinks.hdfssink.type = hdfs 
agent5.sinks.hdfssink.hdfs.path = /flume-%Y-%m-%d 


agent5.sinks.hdfssink.hdfs.filePrefix = log- 
agent5.sinks.hdfssink.hdfs.rollInterval = 6 
agent5.sinks.hdfssink.hdfs.rollCount = 3 
agent5.sinks.hdfssink.hdfs.fileType = DataStream 


agent5 .channels .memorychanne1l.type = memory 
agent5 .channels .memorychannel.capacity = 1666 
agent5 .channels .memorychanne1l.transactionCapacity = 166 


agent5.sources.netsource.channels = memorychannel 
agent5.sinks.hdfssink.channel = memorychannel 





2. 启动 代理 。 


$ flume-ng agent -conf conf -conf-file agent5.conf -name agent5 





和 上 窗口 中 ， 开 局 一 个 远程 连接 会 话 ， 并 癌 Flume 发 送 7 个 事 


$ curl telnet://1Localhost:3666 





4. 查看 HDFS 上 的 输出 文件 。 


$ hadoop fs -ls / 


代码 输出 如 下 所 示 。 





t://\ocslhost: 000 





原理 分 析 


我 们 对 上 一 个 配置 文件 进行 了 一 些 改 动 ， 为 Netcat 信 源 新 加 一 
个 interceptor 属性 ， 并 指定 该 属性 值 为 TimestampInterceptor 。 


Flume 拦 截 桌 其实 束 是 一 些 插件 ， 它 们 可 以 在 从 信 源 向 信和 窒 传 输 事件 的 
过 程 中 操作 和 修改 事件 。 大 多 数 拦截 器 要 么 在 原 事件 的 基础 上 加 入 一 些 
元 数据 (本 例 即 是 这 种 情况 ) ， 要 么 基于 茶 些 规则 删 去 一 些 事 件 。 除 了 
儿 个 内 置 的 拦截 器 外 ，Flume 还 提供 了 用 户 自 定义 拦截 如 的 机 制 。 


本 例 中 我 们 使 用 timestamp 拦截 器 ， 它 在 事件 元 数据 的 基础 上 附加 了 读 
人 
路 径 的 名 称 。 


前 几 个 例子 中 ， 我 们 只 是 把 所 有 事件 写 入 /flume 路 径 ， 本 例 中 ， 我 们 
把 事件 的 写 入 路 径 设置 为 /flume-%Y-%m-%d 。 在 运行 代理 并 向 Flume 发 
0 
羊 的 词缀 。 


HDFS 信 宿 支 持 许多 其 他 变量 ， 例 如 信 源 的 主机 名 以 及 其 他 临时 变量 ， 
使 用 这 些 临时 变量 可 以 以 秒 为 单位 对 数据 进行 准确 分 块 。 


拦截 器 的 功能 非常 明显 。 之 前 ， 代 理 将 所 有 事件 写 入 同一 个 信 宿 路 径 ， 
这 样 随 着 时 间 推 移 ， 该 目录 变 得 越 来 越 大 。 而 使 用 拦截 器 之 后 ， 不 仅 可 
以 实现 数据 的 自动 分 块 ， 简 化 了 数据 管理 ， 而 且 便 于 MapReduce 作 业 使 
用 这 些 数据 。 例 如 ， 假 如 MapReduce 作 业 每 次 处 理 的 都 是 一 小 时 内 的 数 
据 ， 那 么 融 可 以 在 Flume 中 把 输入 事件 按 小 时 分 央 ， 写 入 不 同 路 径 ， 这 
样 就 会 极 大 简化 该 过 程 。 


准确 的 说 ， 拦 截 器 为 Flume 中 传输 的 事件 添加 了 完整 的 Unix 时 间 戳 ， 也 
就 是 说 ， 该 时 间 戳 可 以 精确 到 秒 。 本 例 中 ， 我 们 在 路 径 名 中 只 用 到 了 和 
日 期 相关 的 部 分 ， 如 果 读 者 需要 以 小 时 或 更 细 粒 度 对 数据 进行 分 块 ， 那 
么 就 会 用 到 与 时 间 相 关 的 变量 。 


提示 : ”上述 内 容 假设 处 理事 件 时 的 时 间 惟 足以 满足 读者 需求 。 假 如 
一 批文 件 同 时 被 处 理 并 反馈 到 Flume 系 统 ， 那 么 文件 数据 的 时 间 惟 应 
该 是 另 一 个 时 间 ， 而 不 是 它们 被 处 理 的 时 间 。 在 此 情况 下 ， 读 者 需要 
编写 自 定 义 拦截 器 基于 文件 内 容 设置 时 间 戳 。 



































使 用 Sqoop 还 是 使 用 Flume 


如 果 读 者 需要 把 关系 数据 库 中 的 数据 导出 到 HDFS 上 ， 那 么 Sqgoop 和 
Flume 这 两 个 工具 哪个 更 合适 ? 我 们 已 经 了 解 了 Sqoop 如 何 执 行 导 出 任 
务 ， 使 用 Flume 也 可 以 完成 类 似 任 务 : 既 可 以 编写 自 定义 代码 也 可 以 在 
exec 信 源 中 调用 mysq1 命令 。 


0 
岳 ? 




















在 很 大 程度 上 ，Flume 被 设计 用 于 处 理 日 志 数 据 ， 事 实证 明 ， 它 擅长 处 
理 这 类 数据 。 但 在 大 多 数 情况 下 ，Flume 网 络 负 责 把 事件 从 信 源 传 到 信 
宿 ， 却 不 会 真正 传输 日 志 数 据 本 身 。 如 果 用 户 在 多 个 关系 数据 库 中 存 有 
日 志 数 据 ， 使 用 Flume 应 该 是 个 不 错 的 选择 ， 尽 管 我 会 怀疑 数据 库 是 合 
有 能 力 长 期 存储 日 志 记 录 。 


非 日 志 数 据 可 能 需要 执行 一 些 只 有 Sqoop 才 能 完成 的 数据 操作 。 上 一 章 
我 们 使 用 Sqoop 完 成 的 许多 数据 转换 ， 例 如 指定 目标 列 的 子 集 ， 无 法 使 
用 Flume 完 成 。 还 有 ， 如 果 用 户 需 要 处 理 结构 化 数据 的 各 个 字段 ， 单 独 
使 用 Flume 也 无 法 完成 这 个 任务 。 如 果 读 者 想 要 与 Hive 集 成 ， 那 么 此 时 
Sqoop 是 唯一 的 选择 。 


当然 ， 请 记 住 ， 这 些 工具 还 可 以 协同 处 理 更 复杂 的 任务 。 我 们 可 以 使 用 
Flume 把 事件 汇聚 到 HDFS， 使 用 MapReduce 进 行 处 理 ， 然 后 通过 Sqoop 
导出 到 一 个 关系 数据 库 中 。 














10.12 ”实践 环节 : 多 层 Flume 网 络 
本 节 我 们 将 实践 如 何 使 用 一 个 Flume 代 理 作为 男 一 个 代理 的 信和 宿 。 
1. 把 下 列 内 容 保存 到 agent6.conf 文件 。 


sources = avrosource 
sinks = avrosink 
channels = memorychannel 


sources.avrosource.type avro 
sources.avrosource.bind localhost 
sources.avrosource.port 2066 
sources.avrosource.threads = 5 


sinks.avrosink.type = avro 
sinks.avrosink.hostname = localhost 
sinks.avrosink.port = 46660 


channels .memorychannel.type = memory 
channels.memorychannel.capacity = 1666 
channels .memorychanne1l.transactionCapacity = 166 


sources.avrosource.channels = memorychannel 
sinks.avrosink.channel = memorychannel 





2. 按照 agent3.conf 的 配置 启动 一 个 代理 ， 也 就 是 说 ， 使 用 Avro 信 
源 和 file 信 宿 。 


$ flume-ng client -conf conf -conf-file agent3.conf agent3 





3. 在 第 二 个 窗口 中 ， 按 照 agent6.conf 的 配置 启动 另 一 个 代理 。 


$ flume-ng client -conf conf -conf-file agent6.conf agent6 





4. J 使 用 Avro 客户 端 分 别 同上 述 两 个 代理 发 送 一 个 文 


$ flume-ng avro-client -H localhost -p 4666 -F /home/hadoop/message 
$ flume-ng avro-client -H localhost -p 2666 -F /home/hadoop/message2 








5. 检查 输出 路 径 ， 确 认输 出 文件 存在 于 该 目录 下 。 








原理 分 析 


首先 ， 我 们 定义 了 一 个 新 代理 ， 其 信 源 和 信 答 都 是 Avro 类 型 。 之 前 从 未 
用 过 Avro 信 和 究 ， 它 不 会 把 事件 写 入 本 地 文件 或 HDFS 文 件 ， 而 是 把 事件 
发 给 远程 Avro 信 源 。 





我 们 启动 agent6 代理 之 后 ， 又 启动 了 一 个 前 几 节 用 过 的 代理 agent3 。 
回忆 一 下 ，agent3 使 用 Avro 信 源 和 file_roll 信 答 。 我 们 将 第 一 个 代理 的 
Avro 信和 宿 指 癌 第 二 个 代理 的 Acro 信 源 的 主机 地 址 和 端口 ， 通 过 这 种 方式 
构建 了 一 个 数据 链 路 。 


在 agent6 和 agent3 都 运行 起 来 后 ， 我 们 使 用 Avro 客户 端 回 每 个 代理 发 
送 一 个 文件 ， 并 确认 这 两 个 文件 都 存在 于 agent3 信 宿 指定 的 目录 下 。 


能 达到 这 个 效果 并 非 只 是 技术 原因 使 然 。 更 重要 的 原因 在 于 ，Flume 文 
持 用 户 构 建 非 第 复杂 的 分 布 式 事件 收集 网 络 。 我 们 可 以 认为 不 同类 型 的 
0 














10.13 ”实践 环节 : 把 事件 写 入 多 个 信和 窒 


我 们 还 希望 构建 这 样 的 网 络 ， 一 个 代理 可 以 疝 多 个 信和 宿 写 入 数据 。 本 市 
将 实现 它 。 


1. 把 下 列 内 容 保存 为 agent7.conf 文件 。 


.Sources = netsource 
.Sinks = hdfssink filesink 
.Channels = memorychanne11 memorychanne12 


.Sources.netsource.type netcat 
.Sources.netsource.bind localhost 
.Sources.netsource.port 3660 
.Sources.netsource.interceptors = ts 


.Sources.netsource.interceptors.ts.type = org.apache.flume.inter 


hdfssink.type = hdfs 
.hdfssink.hdfs.path = /flume-%Y-%m-%d 
.hdfssink.hdfs.filePrefix = log 
.hdfssink.hdfs.rollInterval = 6 
.hdfssink.hdfs.rollCount = 3 
.hdfssink.hdfs.fileType = DataStream 


.filesink.type = FILE ROLL 
.filesink.sink.directory = /home/hadoop/flume/files 
.filesink.sink.rollInterval = 6 


.Channels.memorychanne1l1.type = memory 
.channels .memorychanne1l11.capacity = 1666 
.channels .memorychanne1l11.transactionCapacity 


.Channels.memorychanne12.type = memory 
.channels .memorychanne12.capacity = 1666 
.channels .memorychanne12.transactionCapacity 





agent7.sources.netsource.channels = memorychannel1 memorychannel2 
agent7.sinks.hdfssink.channel = memorychanne11 
agent7.sinks.filesink.channel = memorychanne12 


agent7.sources.netsource.selector.type = replicating 





2. 局 动 代 理 agent7。 


$ flume-ng agent -conf conf -conf-file agent7.conf -name agent7 








3. 开局 一 个 远程 会 话 连接 并 同 Flume 发 送 一 个 事件 。 


$ _ curl telnet://localhost:36060 





上 述 命 令 的 执行 结果 如 下 所 示 。 


Replicating! 


检查 HDFS 上 的 输出 目录 及 文件 信和 窒 的 内 容 。 


$ cat files/* 
$ hdfs fs -cat "/flume-*/*" 





上 述 命令 的 执行 结果 如 下 图 所 示 。 








原理 分 析 


我 们 创建 了 一 个 配置 文件 ， 该 文件 设置 了 一 个 Netcat 信 源 ， 以 及 两 个 信 
和 宿 ， 分 别 是 fle 信 和 宿 和 HDFS 信 宿 。 同 时 ， 还 设置 了 两 个 memory 信 道 分 
别 连接 信 源 和 两 个 信 逢 。 


接着 ， 我 们 设置 信 源 选择 器 的 类 型 为 rep1icating ， 也 就 是 说 ， 所 有 
事件 都 会 同时 发 送 给 上 述 两 个 信道 。 像 往常 一 样 启动 代理 并 同 信 源 发 
0 
言 宿 。 


10.13.1 选择 器 的 类 型 

信 源 选择 器 有 两 种 工作 模式 ， 一 种 是 replicating 模 式 ， 男 一 种 是 
multiplexing 模 式 。multiplexing 模式 的 信 源 选择 器 会 依据 事件 的 特定 头 
部 字段 值 判断 癌 哪 个 信道 发 送 事件 。 

10.13.2 ”信和 窒 故 障 处 理 

信和 窒 作 为 数据 输出 端 ， 本 质 上 就 决定 了 它 可 能 随 着 时 间 推 移 会 逐渐 发 生 
故障 。 了 就 像 其 他 输入 输出 设备 一 样 ， 信 和 宿 也 会 遇 到 写 入 速度 达到 上 限 、 
存储 空间 已 用 尽 或 者 脱 机 离线 的 问题 。 


刚才 已 看 到 ，Flume 人 允许 信 源 使 用 选择 器 实现 事件 复制 或 复 用 。 与 此 类 
似 ，Flume 提 出 了 信箱 处 理 占 的 概念 。 











Flume 定 义 了 两 种 信 宿 处 理 器 ， 它 们 分 别 是 故障 恢复 〈failover) 信和 宿 处 
理 右 和 人 负载 均衡 〈load balancing) 信和 窒 人 处 理 器 。 


信和 窒 处 理 器 把 所 有 信和 窒 看 做 一 个 信和 宿 组 ， 它 会 依据 各 个 信和 窒 的 类 型 在 事 
件 到 达 时 采取 不 同 的 措施 。 负 载 均 衡 信和 窒 处 理 器 每 次 同 信 窒 发 送 一 个 事 
件 ， 它 采用 轮 询 (round-robin) 或 随机 算法 选择 下 次 使 用 的 信 答 。 如 果 
某 个 信和 窒 出 现 故 障 ， 信 和 窒 处 理 嚣 会同 男 一 个 信和 窒 发 送 相 同事 件 ， 但 发 生 
故障 的 信箱 仍然 保留 在 信和 窒 池 中 。 


与 此 不 同 ， 故 障 恢 复 信 窒 处 理 器 把 所 有 信和 窒 视 为 一 个 优先 表 ， 只 有 蜗 优 
先 级 信 箱 发生 故障 后 ， 它 才 会 使 用 低 优 先 级 信和 究 。 故 障 恢 复 信和 窒 处 理 费 
Be 在 经 过 一 段 冷却 期 后 重 试 该 信箱 故 
障 是 否 修复 ， 以 避免 后 续 的 大 量 故 障 。 











一 展 身 手 : 信 答 故障 处 理 








创建 一 个 包含 3 个 HDFS 信 和 宿 的 Flume 配 置 文件 ， 每 个 信和 宿 对 应 着 HDFS 
上 的 不 同位 置 。 使 用 负载 均衡 信 宿 处 理 器 ， 确 认 事件 被 平均 写 到 每 个 
信 宿 ， 然 后 使 用 故障 恢复 信 宿 处 理 器 ， 展 示 各 个 信 宿 的 优先 级 。 


你 能 想 办 法 让 代理 选用 指定 信和 宿 代 蔡 优 先 级 最 高 的 信箱 吗 ? 
10.13.3 ”使 用 简单 元 件 搭 建 复 杂 系 统 
目前 ， 我 们 已 经 学 习 了 Flume 的 大 部 分 关键 功能 。 以 前 兽 提 到 ，Flume 是 
一 个 框架 ， 我 们 应 当 认 真 考 虑 这 个 说 法 。Flume 的 部 署 方式 非常 灵活 ， 
我 们 曾 介 介绍 过 的 其 他 产 品 都 无 法 与 之 相 比 。 
Flume 的 灵活 性 来 源 于 其 中 一 小 部 分 功能 。 通 过 信道 连接 信 源 和 信箱 
并 且 文 持 多 个 代理 和 多 个 信道 ， 这 就 是 Flume 录 活性 的 一 种 具体 表现 。 
这 些 功能 看 上 去 没什么 了 不 起 ， 但 这 些 模块 却 可 以 用 来 构建 下 述 系 统 ， 
该 系统 能 把 多 个 网 页 服务 器 群 的 日 志 汇 聚 到 一 个 Hadoop 焦 群 。 


。 服务 占 群 中 的 每 个 市 点 都 运行 一 个 代理 ， 负 员 依 次 获取 所 有 的 本 地 
日 志文 件 。 


。 这 些 日 志文 件 被 发 送 给 一 个 高 可 靠 性 的 汇聚 点 。 每 个 服务 器 群 中 都 














有 一 个 汇聚 点 ， 负 责 执行 一 些 处 理 任务 ， 并 在 原 事件 基础 上 附加 一 
些 元 数据 ， 把 这 些 记 录 分 成 3 类 。 


第 一 级 集合 器 把 事件 发 给 能 够 访问 Hadoop 集 群 的 一 个 代理 。 集 合 器 
提供 了 多 个 访问 点 ， SM ，3 类 
事件 被 发 给 第 二 级 聚合 器 


最 后 一 级 聚合 器 把 1 类 事件 和 2 类 事件 写 入 HDFS 的 不 同位 置 ， 同 时 2 
类 事件 也 被 写 入 到 本 地 文件 系统 。3 类 事件 直接 写 入 HBase。 


简单 的 元 件 就 能 组 合 搭建 这 么 复杂 的 系统 ， 简 直 太 神奇 了 ! 


一 展映 手 : 使 用 简单 元 件 搭建 复杂 系统 


作为 一 个 练习 题 ， 考 虑 一 下 如 何 实现 上 述 系统 ， 并 确定 流程 中 每 一 步 
要 用 到 怎样 的 Flume 配 置 。 


10.14 更 高 的 视角 


读者 需要 意识 到 ， 用 户 不 光 要 考虑 “简单 地 ”从 菏 个 市 点 问 男 一 个 市 点 传 
输 数据 。 最 近 ， 由 于 某 些 原因 ， 数 据 的 生命 周期 管理 (data lifecycle 
management) 这 一 概念 被 广 为 使 用 。 接 下 来 ， 在 系统 出 现 数据 泛滥 的 情 
况 之 前 ， 我 们 将 简要 介绍 一 些 需要 用 户 考虑 的 问题 。 


10.14.1 数据 的 生命 周期 


关于 数据 生命 周期 的 主要 问题 是 ， 数 据 要 存储 多 久 其 价值 才能 超过 存储 
成 本 。 了 永久 存储 数据 看 似 极 具 吸引 方 ， 但 随 痢 时 间 推 移 ， 存 储 的 数据 量 
越 来 越 大 ， 存 储 成 本 也 会 急剧 上 升 。 这 些 成 本 不 单单 是 金钱 方面 的 成 
本 。 随 着 数据 量 的 增长 ， 许 多 系统 的 性 能 也 会 逐步 降低 。 


天 于 数据 存储 多 长 时 间 最 为 合适 ， 这 一 问题 的 答案 很 少 由 技术 因素 来 决 
定 。 相 反 ， 数 据 价值 以 及 业务 成 本 才 是 决定 性 因 系 。 有 些 时 候 ， 用 户 很 
快 就 会 发 现 数据 坚 无 价值 。 在 另 一 些 情 况 下 ， 出 于 竞争 或 法 律 原因 ， 业 
务 无 法 删除 这 些 数据 。 确 定数 据 在 业务 流程 中 所 处 地 位 ， 然 后 采取 相应 


音 施 。 


当然 ， 一 定 要 记 住 ， 保 留 或 删除 数据 并 不 是 一 个 非 此 即 彼 的 问题 。 用 户 
还 可 以 随 着 数据 保留 时 间 的 增长 ， 将 其 逐步 迁移 到 成 本 较 低 、 性 能 较 关 
的 多 层 存储 系统 中 。 


10.14.2 集结 数据 


妨 一 方 面 ， 读 者 通常 需要 考虑 数据 是 如 何 送 入 MapReduce 这 类 数据 处 理 
平台 的 。 由 于 使 用 了 多 个 数据 源 ， 用 户 往往 希望 把 所 有 数据 都 放 在 同一 
个 大 容量 存储 系统 中 。 


正如 我 们 之 前 所 看 到 的 ，Flume 可 以 用 参数 表示 HDFS 上 的 数据 写 入 位 
置 ， 有 助 于 解决 这 个 问题 。 但 是 ， 最 好 把 这 些 数据 写 入 位 置 视 为 临时 集 
结 区 ，Flume 会 先 把 数据 写 入 这 个 位 置 再 进行 处 理 。 在 数据 处 理 结 束 之 
后 ， 这 些 数据 会 被 移 到 长 期 目录 结构 。 














10.14.3 调度 


在 很 多 情况 下 ， 我 们 曾 提 到 过 ，Flume 可 能 需要 一 个 外 部 任务 执行 某 些 

操作 。 如 前 所 述 ， 一 旦 文件 写 入 HDFS， 我 们 就 想 用 Flume 对 其 进行 处 

理 ， 但 是 该 任务 是 如 何 调度 执行 的 呢 ? 或 者 说 ， 我 们 如 何 进行 后 期 处 

理 ， 如 何 对 数据 进行 存档 或 删除 老 数据 ， 甚 至 如 何 删除 源 主 机 上 的 日 志 
? 











» 


文件 


Linux 系 统 提供 的 logrotate 工具 可 以 调度 上 述 部 分 任务 ， 例 如 源 主 机 上 
的 日 志 删 除 工作 ， 但 读者 需要 上 自行 创建 工具 实现 完成 其 他 任务 的 调度 工 
作 。 类 似 cron 这 样 的 常用 工具 就 能 完成 这 些 功能 ， 但 随 着 系统 复杂 性 的 
提升 ， 用 户 需要 寻找 其 他 更 复杂 的 调度 系统 。 下 一 章 ， 我 们 将 会 简要 介 
绍 这 种 系统 与 Hadoop 的 集成 。 











10.15 小结 


本 章 讨论 了 如 何 获取 网 络 上 的 数据 ， 并 使 用 Hadoop 来 处 理 这 些 数据 。 我 
们 发 现 ， 实 际 上 这 是 一 个 很 常见 的 问题 。 尽 管 我 们 可 以 使 用 Hadoop 的 专 
属 工 具 ， 如 Flume， 但 这 并 不 是 唯一 的 解决 方案 。 我 们 特别 对 可 能 写 入 
Hadoop 的 数据 进行 了 分 类 ， 通 常 把 它们 分 为 网 络 数据 和 文件 数据 。 我 们 
介绍 了 一 些 使 用 命令 行 工具 获取 数据 的 方法 。 尺 管 这 些 方法 确实 有 效 ， 
但 它们 太 过 简单 ， 并 不 适合 更 复杂 的 情况 。 


我 们 把 Flume 视 为 一 个 可 灵活 使 用 的 框 杂 ， 它 可 以 定义 和 管理 数据 〈 励 
其 是 日 志文 件 ) 路 径 ，Flume 系 统 认为 数据 首先 达到 信 源 ， 经 过 信道 处 
理 后 ， 被 写 入 信 答 。 


接 痢 ， 我 们 学 习 了 很 多 Flume 功 能 ， 包 括 如何 使 用 不 同类 别 的 信 源 、 信 
道 和 信 竹 。 从 中 可 以 学 到 ， 如 何 把 简单 的 功能 模块 组 合成 非常 复杂 的 系 
统 ， 最 后 我 们 以 对 数据 管理 的 更 普遍 性 的 思考 结束 本 章 内 容 。 


全 书 主要 内 容 到 此 结束 。 下 一 半 我 们 将 简要 介绍 读者 可 能 感 兴趣 的 大 量 
其 他 项 目 ， 并 强调 了 一 些 加 入 Hadoop 开 发 者 社区 和 获得 帮助 的 方法 。 








第 11 章 ”展望 未 来 

正如 书 名 所 述 ， 本 书目 的 在 于 向 初学 者 深入 介绍 Hadoop 相 关 知 识 及 其 
应 用 。 读 者 经 常会 发 现 ，Hadoop 和 生态 系 统 的 范围 远 远 不 止 这 些 核心 产 
品 。 本 章 我 们 将 快速 浏览 一 些 有 趣 的 应 用 。 
本 章 包括 以 下 内 容 : 

。 总 结 本 书 涵盖 的 内 容 : 

。 本 书 未 涉及 的 内 容 ; 

即将 发 生 的 Hadoop 变 革 ; 
其 他 版 本 的 Hadoop 软 件 安装 包 ; 
其 他 重要 的 Apache 项 目 ; 
其 他 程序 设计 方法 ; 
。 信息 来 源 及 帮助 。 


11.1 全 书 回顾 


因为 我 们 把 读者 群 设 定 为 Hadoop 初 学 者 ， 所 以 希望 初学 者 从 书 中 能 学 到 
Hadoop 的 核心 概念 和 工具 ， 为 今后 的 学 习 和 工作 打下 坚实 基础 。 而 且 ， 
人 





尽管 起 初 Hadoop 只 是 一 个 独立 的 产品 ， 但 坚 不 客气 地 说 ， 近 年 来 以 
Hadoop 为 中 心 的 生态 系统 呈 爆 及 趋势 。 读 者 还 可 以 选用 其 他 版 本 的 软件 
包 部 着 Hadoop， 有 些 版 本 的 软件 包 提 供 了 定制 的 商用 扩展 功能 。 目 前 ， 
以 Hadoop 为 基础 的 相关 项 目 和 应 用 实在 是 太 多 了 ， 它 们 要 么 实现 了 录 个 
新 功能 ， 要 么 以 其 他 方式 实现 了 现 有 功能 。 赶 快 使 用 Hadoop 吧 ， 这 真是 
一 个 激动 人 心 的 时 刻 ， 快 来 看 看 还 有 些 什么 好 玩 的 东西 。 


提示 : ”当然 ， 对 Hadoop 生 态 系 统 的 概述 由 作者 的 兴趣 和 偏好 决定 ， 

可 能 并 不 全 面 ， 而 且 涉及 的 相关 技术 和 应 用 在 写作 时 也 已 过 时 。 换 句 
话说 ， 千 万 别 认 为 书 中 讲 到 的 东西 现在 全 都 能 用 ， 权 当 是 开 骨 沫 好 

了 。 








11.2 ”即将 到 来 的 Hadoop 变 革 


在 讨论 其 他 版 本 的 Hadoop 软 件 安 疼 包 之 前 ， 我 们 先 来 看 看 Hadoop 将 要 
发 生 的 一 些 变革 。 我 们 曾 提 到 过 Hadoop 2.0 的 变化 ， 主 要 是 使 用 新 的 
BackupNameNode 和 CheckpointNameNode 服 务 提 高 了 NameNode 的 可 用 
性 。 这 是 Hadoop 的 一 个 重大 变革 ， 因 为 它 能 增强 HDFS 的 健壮 性 ， 极 大 
地 提高 企业 信用 ， 并 能 实现 集群 操作 的 流水 化 。 再 怎么 伶 大 NameNode 
HA 对 Hadoop 的 影响 都 不 为 过 ， 几 年 之 后 ， 人 们 甚至 会 想 ， 没 发 明 
NameNode HA 技术 之 前 ，Hadoop 是 如 何 运 作 的 。 


发 生 这 些 变革 的 同时 ，MapReduce 也 不 是 一 成 不 变 的 。 实 际 上 ， 我 们 介 
: 的 这 些 Hadoop 变 半 不 可 能 带 来 太 多 的 直接 影响 ， 却 能 融 来 根本 上 的 改 


最 初 ， 开 发 者 把 改进 后 的 Hadoop 称 为 MapReduce 2.0 或 MRV2 。 但 

是 ， 现 在 我 们 认为 YARN (Yet Another Resource Negotiator) 这 个 名 称 
更 为 贴切 ， 因 为 主要 变化 发 生 在 Hadoop 平 台 而 非 MapReduce。YARN 的 
目标 是 在 Hadoop 基 础 上 构建 一 个 集群 资源 分 配 平 台 ， 可 以 为 某 些 应 用 分 
配 集群 资源 ， 而 MapReduce 只 是 这 些 应 用 中 的 一 种 。 


目前 ，JobTracker 负 责 两 项 不 同 的 任务 : 管理 某 一 MapReduce 作 业 的 进 
度 〈 也 要 确定 任意 时 刻 处 于 空间 状态 的 集群 资源 ) ， 以 及 在 作业 的 不 同 
阶段 分 配 资源 。YARN 把 这 些 任 务 分 给 了 几 个 独立 的 组 件 。 一 个 全 局 的 
ResourceManager 负 责 集 群 资源 管理 ， 它 通过 每 台 主 机 上 的 NodeManager 
实现 该 功能 ;一 个 独立 的 ApplicationManager ， 它 与 ResourceManager 
通信 以 获取 作业 所 需 资源 。 


YARN 中 的 MapReduce 接 口 保持 不 变 ， 所 以 从 客户 的 角度 来 看 ， 所 有 现 
有 代码 都 能 在 新 平台 上 运行 。 但 是 由 于 新 开发 了 ApplicationManager， 
我 们 更 倾向 于 把 Hadoop 视 为 文 持 多 种 处 理 模型 的 通用 任务 处 理 平台 。 早 
期 已 迁移 到 YARN 的 处 理 模 型 包括 基于 流 的 处 理 模型 ， 以 及 MPI 

(Message Passing Interface， 消 息 传 递 接 口 ) 的 一 个 端口 ， 它 在 科学 计 
算 中 得 到 了 广泛 使 用 。 








11.3 ”其 他 版 本 的 Hadoop 软 件 包 


回顾 第 2 章 内 容 ， 我 们 从 Hadoop 主 页 下 载 其 安装 包 。 但 是 这 并 非 获 得 
Hadoop 的 唯一 方式 ， 读 者 可 能 对 此 感到 奇怪 。 更 让 人 奇怪 的 是 ， 大 多 数 
生产 环境 中 使 用 的 Hadoop 并 不 是 Apache 提 供 的 版 本 。 


为 什么 会 有 其 他 版 本 


Hadoop 是 一 款 开源 软件 。 任 何 遵守 Apache 软 件 许可 证 的 人 都 可 以 发 布 
E 己 开 发 的 Hadoop 版 本 。 人 们 主要 出 于 两 个 考虑 来 创建 其 他 Hadoop 版 














1. 打包 





有 些 人 开发 这 些 安装 包 是 为 了 捆绑 其 他 软件 ， 例 如 Hive、HBase、Pig， 
还 有 许多 其 他 项 目 。 大 多 数 项 目的 安装 方法 差异 很 大 (HBase 是 个 例 
外 ， 事 实证 明 它 的 手动 安装 更 为 困难 ) ， 一 些 细微 的 版 本 不 兼容 问题 只 
有 在 系统 处 理 特殊 的 任务 时 才 会 显现 。 把 这 些 软件 打包 发 布 可 以 提供 一 
组 莱 容 的 软件 。 





2. 免费 的 和 商用 的 扩展 


作为 一 个 开源 项 目 ，Hadoop 软 件 包 的 发 布 相对 比较 自由 ， 开 发 人 员 可 以 
Si 
为 商业 产品 。 


这 是 一 个 有 和 争议 的 问题 ， 一 些 开源 文 持 者 不 希望 把 任何 成 功 的 开源 产品 
进行 商业 化 运作 。 在 他 们 看 来 ， 了 商业 公司 只 是 在 抽取 开 源 社 区 的 劳动 果 
实 ， 无 须 自主 创建 这 些 软 件 即 可 不 劳 而 获 。 男 一 些 人 认为 这 对 Apache 许 
可 很 有 好 处 ， 基 础 产品 永远 是 免费 的 ， 个 人 用 户 和 商业 公司 可 以 选择 是 
和 
这 


理解 了 不 同 版 本 软件 包 的 由 来 之 后 ， 接 下 来 我 们 将 选取 几 个 较 受 欢迎 的 
软件 版 本 进行 介绍 。 





。 Cloudera 开 发 的 Hadoop 版 本 


Cloudera 开 发 的 Hadoop 安 装 包 是 目前 使 用 最 广泛 的 Hadoop 安 闭 包 ， 以 后 
简写 为 CDH (Cloudera Distribution for Hadoop) 。 回 忆 一 下 ，Sqoop 即 
是 由 Cloudera 公 司 开发 的 ， 然 后 将 其 捐献 给 了 开源 团体 ，Doug Cutting 现 
在 为 这 家 公司 效力 。 


读者 可 通过 http://www.cloudera.com/hadoop 了 解 Cloudera 版 Hadoop， 同 
时 该 页 面 还 包含 大 量 Apache 产 品 ， 如 Hive、Pig、HBase、 Sqoop 和 
Flume, 还 有 其 他 一 些 不 太 出 名 的 产品 ， 如 Mahout 和 Whir。 我 们 稍 后 会 
Js 


CDH 提 供 了 多 种 格式 的 安装 包 供用 户 下 载 ， 并 以 即 装 即 用 的 方式 部 署 软 
件 。 例 如 ， 基 本 的 Hadoop 产 品 被 分 成 多 个 不 同 的 安装 包 ， 分 别 对 应 着 
NameNode、TaskTracker 等 Hadoop 组 件 ， 每 个 组 件 都 集成 了 标准 的 Linux 
基础 服务 。 


CDH 是 第 一 个 被 广泛 应 用 的 可 选 安装 包 ， 它 集成 了 很 多 实用 软件 ， 用 户 
不 仅 可 免费 使 用 ， 而 且 质量 可 靠 ， 因 此 很 多 用 户 都 选择 了 这 个 版 本 的 
Hadoop。 

















另外 ，Cloudera 也 提供 了 其 他 商业 产品 ， 如 Hadoop 管 理工 具 、Hadoop 培 
训 、 技 术 文 持 和 咨询 服务 。 详 细 内 容 参 见 公司 主页 的 介绍 。 


。 Hortonworks 推 出 的 数据 平台 


2011 年 ，Yahoo 公 司 内 部 负责 大 量 Hadoop 开 发 工作 的 部 门 被 独立 出 来 ， 
成 立 了 一 个 名 为 Hortonworks 的 新 公司 。 他 们 也 推出 了 自行 研发 的 预 集 
成 的 Hadoop 安 装 包 ， 取 名 为 Hortonworks Data Platform (简称 

HDP) ， 网 址 为 http://hortonworks.com/products/hortonworksdataplatform/ 





HDP 的 概念 与 CDH 相 似 ， 但 这 两 个 产品 的 侧重 点 有 所 不 同 。HDP， 其 至 
包括 其 管理 工具 在 内 ， 基 本 上 是 一 个 完全 开源 的 产品 。HDP 还 提供 对 
Talend Open Studio 的 支持 ，Hortonworks 公 司 把 它 定 位 成 一 个 关键 的 集 
成 平台 。Heortonworks 公 司 不 提供 任何 商用 软件 ， 它 主要 通过 提供 专业 
服务 和 技术 文 持 实现 僵 利 。 


Cloudera 和 Hortonworks 都 是 拥有 重要 工程 技术 的 风险 企业 ， 很 多 对 
Hadoop 有 杰出 贡献 的 开发 人 员 都 受 雇 于 这 两 个 公司 。 但 是 ， 它 们 的 技术 
基础 都 是 这 些 相 同 的 Apache 项 目 ， 区 别 在 于 软件 集成 的 方式 不 同 ， 使 用 
的 软件 版 本 不 同 ， 以 及 各 公司 提供 的 增值 服务 不 同 。 


。 MapR 


MapR Technologies 公司 提供 了 一 种 全 新 的 安装 包 ， 通 常人 们 把 这 家 公 
司 及 其 提供 的 软件 都 简称 为 MapR 。 读 者 可 通过 http://www.mapr.com 下 
载 MapR， 它 虽然 同样 以 Hadoop 为 基础 ， 但 进行 了 一 些 改进 。 


MapR 主 要 关注 软件 性 能 和 可 用 性 。 我 们 曾 在 第 7 章 讲 过 ，Hadoop 
NameNode 和 JobTracker 是 Hadoop 核 心 组 件 的 注 弱 环节 ， 而 MapR 率 先 实 
现 了 Hadoop NameNode 和 JobTracker 的 高 可 用 性 解决 方案 。MapR 还 集成 
了 NFS 文 件 系 统 ， 这 样 就 可 以 更 简便 地 处 理 现 有 数据 。MapR 用 完全 兼 
容 POSIX 的 文件 系统 代 蔡 了 HDFS， 便 于 远程 挂 接 。 


MapR 同 时 提供 了 免费 版 和 企业 版 软件 ， 但 免费 产品 只 能 使 用 其 部 分 扩 
展 功能 。 一 旦 用 户 购 买 了 企业 版 软件 ， 公 司 会 提供 相应 的 技术 文 持 、 培 
训 和 咨询 服务 。 


。 IBM InfoSphere Big Insights 


本 节 讲 的 最 后 一 个 产品 来 自 IBM 人 公司。 读者 可 通过 http://www- 
01.ibm.com/software/data/infosphere/biginsights/ 下 载 到 IBM InfoSphere 
Big Insights 的 安装 包 。 和 MapR 一 样 ， 它 也 对 开源 Hadoop 的 核心 组 件 进 
行 了 商业 改进 和 扩展 。 


IBM 分 别提 供 了 Big Insights 的 免费 版 和 企业 版 。 人 免费 版 对 Apache 
Hadoop 产 品 进行 了 改进 ， 新 增 了 一 些 免费 的 管理 工具 和 部 署 工 具 ， 同 时 
还 集成 了 一 些 其 他 IBM 软 件 。 


企业 版 与 免费 版 的 差别 较 大 ， 它 不 仅仅 建立 在 Hadoop 基 础 之 上 ， 实 际 
上 ， 它 还 可 以 与 CDH 或 HDP 共 同 使 用 。 企 业 版 提供 了 一 系列 的 数据 可 视 
化 、 商 业 分 析 和 处 理工 具 。 它 还 深度 集成 了 IBM 的 其 他 产品 ， 如 
InfoSphere Streams、DB2 和 GPFS。 














3. 如 何 选 择 合适 的 产品 


可 以 看 出 ， 用 户 的 选择 范围 很 大 ， 从 方便 安装 的 完全 开源 的 集成 产品 ， 
到 全 部 定制 的 集成 分 析 工 具 。 每 种 产品 都 各 有 和 干 秋 ， 用 户 在 选择 使 用 哪 
区 产品 时 要 仔细 考虑 具体 需求 。 因 为 上 述 产品 都 提供 了 基本 版 本 的 免费 
下 载 ， 因 此 用 户 可 以 先 试用 一 下 ， 然 后 再 选择 合适 的 产品 。 


11.4 其 他 Apache 项 目 


无 论 用 户 用 的 是 集成 产品 ， 还 是 基本 的 Apache Hadoop， 痢 会 经 第 过 到 
需要 使 用 其 他 相关 的 Apache 项 目的 情况 。 本 书 已 经 介绍 了 Hive、Sqoop 
和 Flume， 接 下 来 将 重点 介绍 其 他 项 目 。 


需要 注意 的 是 ， 本 市 内 容重 在 突出 一 些 重 点 项 目 (根据 我 的 理解 )， 同 
时 尽量 介绍 更 多 的 各 类 可 用 项 目 。 读 者 的 思路 要 开阔 一 些 ， 任 何 时 候 都 
有 新 项 目 发 布 。 











11.4.1 HBase 








HBase 也 许 是 最 受 欢 迎 但 本 书 尚 未 提 到 的 与 Hadoop 相 关 的 Apache 项 目 ， 
其 主页 地 址 为 http://hbase.apache.org 。 它 是 一 款 以 HDFS 为 基础 的 非 关系 
数据 库 ， 其 理论 基础 是 Google 在 一 篇 学 术 论 文中 提 到 的 BigTable 数 据 存 
储 模型 。 


鉴于 MapReduce 和 Hive 任 务 都 侧重 于 成 批 地 访问 数据 ，HBase 正 好 相 
反 ， 它 力求 低 延 久 的 访问 数据 。 因 此 ， 与 之 前 提 到 的 其 他 技术 不 同 ， 
HBase 能 够 直接 文 持 面向 用 户 的 服务 。 


HBase 并 没有 像 Hive 和 其 他 RDBMS 那 样 采用 关系 型 模型 ， 而 是 采用 了 面 
癌 列 的 非 结 构 化 键 值 模型 。 用 户 可 以 在 HBase 运 行 时 新 增 数据 列 ， 并 依 
据 数 据 值 将 其 插入 HBase 中 的 合适 位 置 。 因 为 HBase 实 现 了 从 原始 键 到 
目标 列 的 高 效 映 射 ， 所 以 每 次 数据 查找 操作 的 执行 速度 都 很 快 。HBase 
把 时 间 戳 当做 数据 的 另 一 个 属性 ， 因 些 可 以 直接 根据 时 间 点 检索 数据 。 


这 种 数据 模型 的 功能 非常 强大 ， 但 并 不 适用 于 所 有 情况 ， 就 像 天 系 模型 
也 无 法 做 到 普 近 运用 一 样 。 但 如 果 读 者 需要 低 延 退 地 访问 存储 在 Hadoop 
里 的 大 规模 结构 化 数据 ，HBase 绝 对 是 最 好 的 选择 之 一 。 

















11.4.2 Oozie 





我 们 曾 多 次 讲 过 ，Hadoop 集 群 并 非 存在 于 真空 中 ， 而 要 与 其 他 系统 集成 
以 扩展 工作 流 的 概念 。Oozie 是 一 个 针对 Hadoop 开 发 的 工作 流 调 度 工 
有 具 ， 其 主页 地 址 为 http:/oozie.apache.org 。 


Oozie 以 最 简单 的 模式 提供 了 执行 MapReduce 作 业 的 调度 机 制 ， 其 调度 
原则 要 么 是 一 定 的 时 间 段 〈 例 如 ， 每 小 时 执行 一 次 ) ， 要 么 是 数据 可 用 
性 〈 例 如 ， 当 新 数据 到 达 时 执行 ) 。Oozie 还 可 以 指定 多 级 工作 流 ， 它 
们 可 以 描述 一 个 完整 的 端 到 端 流程 。 


除了 直接 调度 MapReduce 作 业 的 运行 之 外 ，Oozie 也 可 以 调度 Hive 或 Pig 
命令 的 运行 ， 甚 至 是 完全 和 Hadoop 无 关 的 任务 〈 如 发 邮件 、 执 行 shell 脚 
本 或 在 远程 机 上 运行 命令 ) 。 


用 户 可 通过 多 种 方式 构建 工作 流 ， 一 种 通用 的 方法 就 是 使 用 Pentaho 
Kettle (http://kettle.pentaho.com ) 和 Spring Batch 

(http://static.springsource.org/spring-batch ) 这样 的 Extract Transform 
Load (ETL) 工具 。 这 些 工 具 中 集成 了 部 分 Hadoop， 但 传统 的 专用 的 
工作 流 引 擎 可 能 并 不 包含 这 些 集成 。 如 果 读 者 要 构建 一 个 Hadoop 交 互 工 
作 流 ， 手 边 却 没 有 一 款 满 意 的 集成 了 Hadoop 的 工作 流 工 具 ， 不 妨 考虑 一 
下 Oozie。 








11.4.3 Whir 





如 果 读 者 想 借助 Amazon AWS 这 样 的 云 服务 部 署 Hadoop， 还 不 如 直接 使 
用 更 高 级 的 ElasticMapReduce 服 务 ， 而 不 必 再 基于 EC2 搭 建 目 有 集群 。 
尽管 Amazon 提 供 了 帮助 脚本 ,但 在 云 基 础 设施 上 部 署 Hadoop 依 然 非 常 
复杂 。 这 就 是 开发 Whir 的 初衷 ， 其 主页 地 址 为 http://whir.apache.org 。 


Whir 并 非 专 用 于 解决 Hadoop 的 部 敬 问 题 ， 它 是 一 个 通用 的 云 服务 ， 并 
不 限定 具体 的 应 用 程序 ，Hadoop 只 是 其 中 一 个 例子 。Whir 提 供 了 一 种 
程序 化 的 方法 在 云 基础 设施 上 部 署 Hadoop， 它 会 解决 所 有 底层 服务 的 问 
题 。 而 且 ， 它 与 云 服 务 提 供 商 无 关 ， 因 此 ， 假 如 读者 在 Amazon 提 供 的 
EC2 主 机 上 完成 了 Hadoop 的 配置 ， 那 惑 可 以 用 相同 代码 在 其 他 云 上 《如 
Rackspace 或 Eucalyptus〉 完 成 同样 的 设置 。 这 样 束 会 避免 在 不 同 云 服务 
平台 上 部 获 应 用 程序 的 很 多 问题 。 


Whir 做 的 还 远 远 不 够 。 现 如 今 它 支 持 的 服务 种 类 有 限 ， 并 且 只 支持 
Amazon 提 供 的 AWS。 然 而 ， 如 果 读 者 想 更 顺利 地 完成 云端 部 署 ， 有 必 
要 了 解 一 下 Whir。 

















11.4.4 Mahout 


上 述 项 目 都 是 通用 的 ， 它 们 支持 任何 领域 的 应 用 程序 。 而 Apache 
Mahout 则 是 基于 Hadoop 和 MapReduce 创 建 的 机 器 学 习 算法 库 ， 其 主页 地 
址 为 http://mahout. apache.org。 


Hadoop 的 数据 处 理 模型 非常 适合 于 机 需 学 习 应 用 程序 ， 其 目标 即 是 从 大 
规模 数据 集 凝练 数据 价值 和 数据 意义 。Mahout 实 现 了 很 多 第 用 的 机 絮 学 
习 技 术 ， 例 如 聚 类 和 推荐 系统 。 


如 果 读 者 要 从 大 量 数据 中 找 出 关键 的 数据 模式 、 数 据 关 系 ， 或 仅仅 是 像 
大 海 捞 针 一 样 找 出 茶 个 目标 值 ，Mahout 也 许 能 够 发 挥 作用 。 





11.4.5 MRUnit 


我 们 即将 介绍 的 最 后 一 个 Apache Hadoop 项 目 再 次 突出 了 围绕 Hadoop 开 
发 的 应 用 程序 种 类 之 多 。 在 很 大 程度 上 上， 如果 MapReduce 作 业经 芝 由 于 
隐藏 的 bug 而 失败 ， 那 么 读者 用 到 了 多 少 新 技术 或 用 了 哪个 版 本 的 安装 
包 已 变 得 毫 无 意义 。 最 近 推 出 的 MRUnit 可 帮助 解决 这 个 问题 ， 其 主页 
地 址 为 http://mrunit.apache.org 。 


开发 MapReduce 作 业 有 一 定 的 困难 ， 尤 其 是 在 早期 阶段 ， 但 对 它们 进行 
测试 和 调试 一 直 都 令 人 非常 头疼 。 顾 名 思 义 ，MRUnit 采 用 了 JUnit 和 
DBUnit 这 两 种 单元 测试 模型 ， 并 提供 了 一 个 有 助 于 编写 和 执行 测试 代码 
的 框架 ， 可 帮助 用 户 提 高 代码 质量 。 构 建 测试 集 、 自 动 化 测试 集成 工 
具 、 编 译 工 具 以 及 所 有 软件 工程 的 最 好 做 法 ，MRUnit 提 供 了 读者 编写 
非 MapReduce 代 人 码 时 做 梦 都 想 拥 有 的 这 些 功能 。 


如 果 读 者 曾 编写 过 任何 MapReduce 作 业 ， 就 会 觉得 MRUnit 很 有 意思 。 依 
我 个 人 浅见 ， 它 是 一 个 非常 重要 的 项 目 ， 值 得 读者 深入 研究 。 





























11.5 ”其 他 程序 设计 模式 


人 们 不 仅 开 发 了 扩展 Hadoop 功 能 的 应 用 程序 ， 同 时 也 出 现 了 其 他 编程 工 
具 ， 它 们 遵循 全 新 的 编程 范式 。 


11.5.1 Pig 


我 们 在 第 8 章 提 到 过 Pig (http://pig.apache.org ) ， 所 以 本 节 不 再 多 讲 其 
他 内 容 。 一 定 要 记 住 ， 与 编写 原始 MapReduce 代 码 或 HiveQL 脚 本 相 比 ， 
定义 Hadoop 处 理 过 程 的 数据 流 更 为 直观 且 更 适合 。Pig 与 Hive 的 主要 区 
别 是 : Pig 是 一 个 命令 式 语言 ， 它 定义 了 数据 处 理 过 程 的 执行 方式 ， 而 
Hive 更 侧重 于 描述 ， 它 定义 了 目标 结果 却 不 管 如 何 实现 这 个 目标 。 





11.5.2 Cascading 


Cascading 并 不 是 一 个 Apache 项 目 ， 但 它 也 是 开源 的 ， 其 主页 地 址 
为 http://www.cascading.org 。Hive 和 Pig 使 用 不 同 语言 描述 数据 处 理 过 
程 ， 而 Cascading 则 提供 了 一 系列 更 高 层 的 抽象 。 


它 无 需 考虑 多 个 MapReduce 作 业 的 处 理 方 式 以 及 如 何 与 Cascading 共 享 数 
据 ， 而 是 采用 了 数据 流 的 数据 模型 。 数 据 流 中 用 到 了 管道 和 多 个 连接 
器、 分 接头 和 类 似 构件 。 这 些 构件 是 以 编程 方式 构建 的 (原始 的 核心 
API 使 用 Java 语 言 ， 但 也 用 许多 其 他 语言 重 写 了 这 些 API) ，Cascading 人 负 
责 管理 工作 流 在 集群 上 的 翻译 、 调 度 和 执行 。 


如 果 读 者 想 使 用 更 高 级 的 MapReduce 接 口 ， 而 Pig 和 Hive 的 陈述 性 风格 又 
不 太 合 适 ，Cascading 的 编程 模型 可 能 正 是 读者 想 要 的 。 














11.6 AWS 资 源 


许多 Hadoop 技 术 可 以 部 署 在 AWS 上 ， 作 为 自 管理 集群 的 一 部 分 功能 。 
Amazon 提 供 了 对 弹性 MapReduce 的 支持 ， 它 把 Hadoop 视 为 一 个 托管 服 
务 。 与 此 类 似 ， 还 有 一 些 其 他 服务 也 可 以 实现 这 种 托管 。 


11.6.1 在 EMR 上 使 用 HBase 


事实 上 ， 这 并 不 是 一 个 独特 的 服务 ， 但 是 束 像 EMR 本 喘 束 文 持 Hive 和 
Pig 服 务 一 样 ， 它 也 可 以 对 HBase 集 群 提供 直接 文 持 。 这 是 一 个 相对 较 新 
的 功能 ， 还 需要 观察 一 下 它 在 实际 工作 中 的 效果 如 何 。 但 根据 以 往 经 
验 ，HBase 对 网 络 质量 和 系统 负载 较为 敏感 。 





11.6.2 SimpleDB 


Amazon 推 出 的 SimpleDB 服 务 (http://aws.amazon.com/simpledb ) 提供 了 
类 似 HBase 的 数据 模型 。 事 实 上 ， 它 并 非 建立 在 Hadoop 基 础 之 上 ， 但 它 
和 dynamodb 服 务 都 提供 了 托管 服务 ， 如 果 读 者 对 类 似 HBase 的 数据 模型 
感 兴趣 的 话 ， 可 以 考虑 使 用 它们 。 该 服务 早 在 几 年 前 就 己 经 推出 ， 实 践 
表明 ， 它 对 使 用 案例 的 理解 已 经 非常 成 熟 。 


但 是 ，SimpleDB 也 存在 一 些 缺陷 ， 尤 其 是 对 表 的 大 小 有 限制 ， 并 且 需 

要 手工 对 大 数据 集 进行 分 区 。 但 如 果 读 者 只 需 使 用 HBase 类 型 系统 存储 
小 规模 数据 ， 这 将 是 一 个 不 错 的 选择 。 并 且 该 系统 易于 配置 ， 非 常 适合 
用 于 处 理 基于 列 的 数据 模型 。 














11.6.3 DynamoDB 


近期 ，AWS 推 出 了 一 种 名 为 DynamoDB 的 新 服务 , 其 主页 地 址 

为 http://aws.amazon.com/dynamodb 。 虽 然 DynamoDB 和 SimpleDB、 
HBase 的 数据 模型 非常 相似 ， 但 它 针对 的 是 其 他 应 用 类 型 。 男 一 个 区 别 
是 ，SimpleDB 提 供 了 非常 丰富 的 查询 API， 但 受 限 于 数据 大 小 ， 而 
DynamoDB 提 供 的 API 数 量 有 限 却 几乎 能 够 文 持 任意 规模 的 数据 。 


DynamoDB 的 定价 模式 很 有 意思 ， 用 户 不 是 按照 使 用 的 服务 器 数量 文 付 





费用 ， 而 是 由 用 户 申 请 的 读 写 容量 以 及 DynamoDB 为 满足 这 个 需求 而 提 
供 的 资源 来 计 费 。 这 种 纯粹 的 服务 模型 很 有 意思 ， 用 户 完 全 不 了 解 系统 
是 如 何 实现 预 期 性 能 的 。 如 果 读 者 要 存储 的 数据 规模 远 远 超出 了 
SimpleDB 的 能 力 范 围 ， 不 妨 考虑 下 DynamoDB， 但 也 要 好 好 考虑 其 定价 
模型 ， 因 为 申请 太 多 的 空间 会 导致 用 户 成 本 急剧 上 升 。 


11.7 ”获取 信息 的 渠道 


无 论 这 些 新 技术 和 新 工具 功能 如 何 强 大 ， 用 户 可 不 光 只 需要 这 些 新 技术 
和 新 工具 。 东 些 时 候 ， 来 自 有 经 验 人 员 的 小 小 帮助 会 解决 用 户 的 困惑 。 
读者 不 必 担 心 这 方面 的 问题 ，Hadoop 开 发 团队 在 很 多 领域 的 能 力 都 很 
强 。 


11.7.1 源 代码 


读者 有 时 容易 名 视 这 个 现象 : Hadoop 和 其 他 Apache 项 目 都 是 完全 开源 
的 。 这 些 项 目的 源 代 码 从 根本 上 解释 了 系统 的 工作 原理 。 熟 悉 源 代 码 并 
且 跟 踪 茶 些 功 能 的 实现 方式 可 以 为 用 户 提供 巨大 的 信息 量 ， 这 在 用 户 遇 
到 意外 情况 的 时 候 能 够 提供 巨大 的 帮助 。 


11.7.2 ”邮件 列表 和 论坛 


几乎 前 几 节 列 出 的 所 有 项 目 和 服务 都 建立 了 上 自己 的 邮件 列表 和 【或 ) 论 
坛 ， 读 者 可 在 相应 项 目 主页 租 看 特定 链接 。 如 采访 者 使 用 的 是 AWS， 
请 通过 https://forums.aws.amazon.com 访问 AWS 开 发 者 论坛 。 


勿 必要 仔细 阅读 相关 的 用 户 指南 ， 并 了 解 预 期 的 行为 。 这 些 指 丙 都 能 够 
提供 大 量 信 息 ， 包 括 开 发 者 经 常 访 问 的 某 些 项 目的 邮件 列表 和 论坛 。 用 
户 可 以 在 Hadoop 邮 件 列表 找到 Hadoop 核 心 组 件 的 开发 人 员 ， 在 Hive 邮 
件 列 表 找 到 Hive 开 发 人 员 , 在 EMR 论 坛 找到 EMR 开 发 人 员 ， 等 等 。 

















11.7.3 LinkedIn 群 组 
在 LinkedIn 社 交 网 络 上 存在 很 多 Hadoop 和 相关 群 组 。 读 者 可 以 搜索 自己 


感 兴趣 的 特定 领域 ,但 更 好 的 办 法 是 访问 通用 Hadoop 用 户 组 ， 其 网 址 
为 http://www.linkedin.com/groups/Hadoop-Users-988957 。 


11.7.4 Hadoop 用 户 群 





如 果 读 者 想 获 得 更 多 面对面 的 交流 ， 可 以 参加 本 领域 的 HUG (Hadoop 
User Group，Hadoop 用 户 群 ，， 大 部 分 这 些 用 户 群 都 列 在 了 


http://wiki.apache.org/hadoop/HadoopUserGroups 网 页 上 。 这 些 Hadoop 用 
户 群 通常 会 安排 一 些 非 正规 聚会 ， 可 以 一 边 听 到 高 质量 的 演讲 ， 一 边 手 
拿 披萨 和 饮料 与 志趣 相投 的 人 讨论 技术 。 


如 果 读 者 住 的 地 方 附近 没有 HUG 的 话 ， 可 以 考虑 组 织 一 个 ! 





11.7.5 会议 


虽然 Hadoop 是 一 门 相对 较 新 的 技术 ， 但 该 领域 已 经 举办 了 一 些 重 要 的 会 
议 活动 ， 会 议 主题 包括 开源 项 目 、 学 术 研 究 和 商业 应 用 。Hadoop 
Summit 会 议 的 影响 力 非 常 大 ， 关 于 它 和 男 外 会 议 的 介绍 参见 
http://wiki.apache.org/hadoop/Conferences 。 





11.8 ”小结 


本 章 快 速 介 绍 了 更 广泛 的 Hadoop 生 态 系统 。 我 们 依次 介绍 了 Hadoop 即 
将 发 生 的 变化 ， 尤 其 是 HDFS 高 可 用 性 和 YARN， 以 及 存在 其 他 版 本 
Hadoop 安 装 包 的 原因 ， 并 列举 了 一 些 较 受 欢迎 的 版 本 ， 还 有 其 他 扩展 
Hadoop 功 能 或 为 其 提供 文 持 的 Apache 项 目 。 


我 们 还 介绍 了 编写 或 创建 Hadoop 作 业 的 其 他 方法 ， 如 何 获 取 相 关 信 息 ， 
以 及 怎样 与 其 他 Hadoop 爱 好 者 取得 联系 。 


现在 尽情 储 受 使 用 Hadoop 的 乐趣 ， 并 创建 出 让 人 惊叹 的 杰作 吧 ! 


随 笃 测验 管 采 


第 3 章 ”理解 MapReduce 


随 堂 测验 : 键 值 对 














(2) 不 能 使 用 Reducer C 作 为 combiner。 如 果 使 用 Reducer C 作 为 combiner，combiner 会 
癌 最 终 的 reducer 输 出 一 系列 平均 值 ， 而 reducer 却 不 知道 这 些 平均 值 是 通过 多 少 个 项 
目的 数据 计算 出 来 的 ， 意 味 着 它 无 法 计算 整体 平均 值 。 单 纯 从 选取 每 个 键 的 最 大 值 
和 最 小 值 的 角度 来 讲 ， Reducer DD 是 可 以 用 于 combiner 操 作 的 。 但 如 果 想 要 计算 每 个 
键 的 最 大 值 和 最 小 值 之 间 的 方差 ， 这 就 行 不 通 了 。 如 果 某 个 键 的 最 大 值 周边 数据 分 
布 较 为 集中 的 话 ， 方差 就 比较 小 。 类 似 地 ， 如 果 最 小 值 周边 数据 分 布 较为 集中 的 

0 这 些 子 区 间 内 存在 少数 几 个 孤立 值 ， 因 此 最 终 reducer 还 是 无 法 
出 想 天 未 































































































第 7 草 ”系统 运行 与 维护 


随 堂 测验 :集群 配置 


(5) 尽管 可 以 依据 通用 规则 决定 集群 的 硬件 配置 ， 但 最 好 想 想 集群 会 用 于 处 理 哪 种 作 
业 ， 最 佳 配置 最 终 还 是 取决 于 数据 处 理 任务 


(4) 网 络 存储 较 受 欢迎 ， 但 很 多 情况 下， 读者 会 及 现 由 数 百 台 主 机 组 成 的 大 型 Hadoop 
集群 却 依赖 于 单一 存储 设备 。 这 就 为 集群 带 来 了 新 的 失败 风险 ， 而 且 这 一 风险 比 其 
他 风险 的 可 能 性 更 大 。 人 们 通常 使 用 硬盘 见 余 技术 解决 存储 失效 问题 。 这 些 人 硬盘 阵 
列 可 以 达到 很 高 的 性 能 ， 但 读 写 成 本 较 大 。 让 Hadoop 上 自行 解决 失效 问题 ， 赋 了 予 其 在 
同样 数量 的 硬盘 上 进行 并 行 存 取 的 能 力 ， 可 以 达到 更 高 的 性 能 


我 们 建议 尽量 不 要 采用 第 一 种 配置 。 尽 管 这 种 配置 方案 提供 了 足够 的 存储 空 
数据 处 理 能 力 不 足 ， 为 了 降低 硬件 升级 的 频率 ， 我 们 可 以 选择 更 优 的 方案 。 
着 数据 量 的 增长 ， 马 上 就 需要 新 增 主机 处 理 这 些 数据 。 | 
提升 ， 又 对 处 理 器 能 力 和 内 存 提出 了 更 高 的 要 求 

配置 方案 B 和 C 都 不 错 ， 因 为 它们 提供 了 过 剩 的 存储 空间 可 应 对 数据 量 的 增长 ， 并 提 
供 了 相似 的 处 理 器 和 内 存 上 限 。 方 案 B 的 硬盘 IO 速率 较 高 ， 而 方案 C 的 CPU 性 能 更 
好 。 因 为 主 作 业 涉 及 金融 建 模 和 预测 ， 我 们 假设 每 个 任务 都 对 CPU 和 内 存 提 出 了 严 
格 的 要 求 。 配置 方案 B 的 VO 性 能 稍 高 一 些 ， 但 假如 处 理 器 利用 率 达 到 了 100%， 那 么 
2 个 硬盘 就 得 不 到 有 效 利 用 。 因 此 ， 处 理 器 性 能 更 好 的 主机 似乎 更 适合 用 在 本 例 










































































































































































































































































配置 方案 D 远 超出 了 任务 需求 ， 这 也 正 是 没有 选用 该 方案 的 原因 。 我 们 为 何 要 多 花 钱 
购买 远 超 过 实际 需要 的 硬件 呢 





